להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא

דורש טוב

כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

@מישהו שמבין בזה?

ג'מיני

ניתוח מדויק מאוד. העובדה שאתה יכול למחוק את הטקסט או שהדף עצמו מוגדר כטקסט, מעידה על כך שמדובר בקובץ וקטורי (נוצר ישירות מתוכנה כמו Word או אינדיזיין) ולא בסריקה.

הסיבה שאתה מקבל "ג'יבריש" או סימנים משובשים כשאתה מעתיק, נובעת מבעיית קידוד (Encoding). התוכנה יודעת איפה להניח כל אות מבחינה גרפית, אבל היא לא "מבינה" איזו אות זו באמת במפת התווים.

כדי לפתור את זה ולהפוך את הטקסט המשובש ל-OCR איכותי ותקין בעברית, עקוב אחר השלבים הבאים:

שלב א': "השטחת" הקובץ לתמונה (כדי להיפטר מהקידוד הפגום)

כדי שה-OCR יוכל לזהות את האותיות לפי הצורה שלהן (ולא לפי הקוד הפגום שלהן), עלינו להפוך את הדף לתמונה נקייה:

עבור ללשונית "קובץ" -> "הדפסה".
בבחירת המדפסת, בחר ב-PDF-XChange Printer או Microsoft Print to PDF.
לחץ על כפתור "מתקדם" (או הגדרות הדפסה) וחפש את האפשרות "הדפס כתמונה" (Print as Image).

הערה: הגדר רזולוציה של 300 או 600 DPI כדי לשמור על האיכות הגבוהה שחשובה לך.

אשר והדפס. כעת קיבלת קובץ PDF חדש שבו הכל הוא תמונה אחת איכותית, ללא קידוד משובש.

שלב ב': ביצוע OCR בעברית על הקובץ ה"נקי"

עכשיו כשהטקסט הוא רק "צורה" של אותיות, התוכנה תוכל לזהות אותו בקלות:

עבור ללשונית "המרה" (Convert).
לחץ על "זיהוי טקסט (OCR)".
בחלון שנפתח, וודא שהגדרת:

שפות: עברית (אם אין לך, לחץ על "הוסף שפה").
סוג פלט: "טקסט ניתן לחיפוש מעל תמונה" (Searchable Text over Image).

לחץ על אישור.

למה זה הפתרון הכי טוב עבורך?

דיוק: מכיוון שקובץ המקור שלך באיכות גבוהה, ה-OCR יזהה כמעט 100% מהטקסט ללא שגיאות.
תיקון הג'יבריש: ברגע שהפכת את הטקסט לתמונה, "מחקת" את המידע השגוי שהיה מוצמד לאותיות. ה-OCR יוצר מפת תווים חדשה ותקינה לחלוטין.
שמירה על המראה: הקובץ ייראה בדיוק אותו דבר, אבל עכשיו תוכל להעתיק ממנו טקסט בעברית תקינה.

פתרון מהיר (ללא הדפסה):

אם אתה לא רוצה להדפיס, תוכל לנסות בלשונית "המרה" -> "זיהוי טקסט", ובאפשרויות לבחור ב-"Ignore existing text" (התעלם מטקסט קיים). זה יכריח את התוכנה לבצע OCR על סמך צורת האותיות למרות שהיא כבר "רואה" שם טקסט (את הג'יבריש).

ובלי OCR ?
כלומר להפוך את הטקסט עצמו למשהו שניתן להעתקה?

מבחינה טכנית, אם הטקסט שאתה מעתיק יוצא כ"ג'יבריש", זה אומר שהמפה שמקשרת בין הצורה הגרפית של האות לבין הערך הדיגיטלי שלה (מה שנקרא Encoding או Character Map) שבורה.

במצב כזה, המחשב רואה "צורה" של האות א', אבל ב"תעודת הזהות" של האות הזו רשום שהיא בכלל הסימן @. כשאתה מעתיק, הוא מעתיק את "תעודת הזהות" ולא את המראה.

האם אפשר לתקן את זה בלי OCR? התשובה היא: בדרך כלל לא, אבל יש ניסיון אחד ששווה לעשות לפני שנכנעים ל-OCR:

הניסיון היחיד ללא OCR: החלפת גופן (Font Replacement)

לפעמים הבעיה היא רק בגופן המוטמע (Embedded). אם נכריח את התוכנה להשתמש בגופן תקני שמותקן אצלך במחשב, אולי המיפוי יסתדר.

עבור ללשונית עריכה (Edit) ובחר בכלי ערוך תוכן (Edit Content).
סמן את הטקסט המשובש (או Ctrl + A).
לחץ עליו קליק ימני ובחר מאפיינים (Properties).
בחלון המאפיינים שייפתח בצד, חפש את סעיף Text Styles (סגנונות טקסט) ושם את Font (גופן).
נסה לשנות את הגופן לגופן עברי סטנדרטי כמו Arial או David.

התוצאה האפשרית:

אם זה הצליח: הטקסט יהפוך לקריא וניתן להעתקה.
אם זה נכשל: הטקסט יהפוך לריבועים (Empty boxes) או שיישאר ג'יבריש. זה סימן שהמידע על האותיות פשוט לא קיים בקובץ.

למה OCR הוא בעצם "מכונת תיקון" במקרה שלך?

חשוב להבין: OCR הוא לא רק לסריקות גרועות. ב-PDF-XChange, ה-OCR יודע "להסתכל" על הציור של האותיות (שנראה מעולה כי זה קובץ מקור) ולתת להן "תעודת זהות" חדשה ותקינה בעברית.

אם תשתמש באופציה "Ignore Existing Text" (התעלם מטקסט קיים) בזמן ביצוע ה-OCR:

התוכנה תמחק את ה"ג'יבריש" הנסתר.
היא תנתח את צורת האותיות האיכותית שיש לך.
היא תדביק מעליהן שכבת טקסט חדשה, הפעם עם קידוד עברי תקני.

התוצאה: הקובץ יישאר באיכות המקורית הגבוהה שלו, אבל הטקסט יהיה סוף סוף "חי" ואמיתי.

לסיכום:

אם החלפת הגופן (בשיטת המאפיינים) לא עזרה, אין דרך אחרת מלבד OCR. היתרון הוא שעל קובץ וקטורי איכותי, ה-OCR רץ בשניות והדיוק שלו הוא כמעט 100%.

אולי למישהו יש משהו לעשות עם המידע הזה

צדיק וטוב לו

@דורש-טוב אתה יכול להביא לי דף אחד כזה לנסות לבדוק?
מה מקור הש"ס? היברובוקס? מהרשת?

חנניה

@צדיק-וטוב-לו למה שלא תוריד מהריפו?

דורש טוב

@צדיק-וטוב-לו העלתי פה מסכת חגיגה

@צדיק-וטוב-לו כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

מה מקור הש"ס? היברובוקס? מהרשת?

אין לי מושג @יאיר-דניאל
זה כמו של היברובוקס ואוצריא אבל זה נראה קובץ מקור

הבל הבלים

@דורש-טוב כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

זה כמו של היברובוקס

יש אותו דבר גם בהיברובוקס אבל שם הם הטביעו ע"ז סימן מים של זכויות יוצרים.

צבי דורש ציון

אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...

ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...

צדיק וטוב לו

ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.

מיכאלוש

@יהודי-צעיר
כמדומני שכבר שנים מאורות הדף היומי משתמשים בש"ס וילנא של מסורת הש"ס רק ללא ההערות שמסורת הש"ס עבדו אליהם
פנית לאחד משניהם ?

הבל הבלים

במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.

דורש טוב

@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב?

הבל הבלים

@דורש-טוב
לא, קודם הדפסתי את זה כתמונה, ואח"כ עשיתי OCR.
אבל כרגע הרשת שלי לא עומדת בזה, אני מקוה בערב להעלות את זה.

דורש טוב

@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15

הבל הבלים

@דורש-טוב
כן, זה שוקל 4.6 ג'יגה, וגם דחיסה לא עוזרת...

חנניה

@הבל-הבלים וכמה שוקל מה שיש היום באוצריא?

צדיק וטוב לו

כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.

לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100%

חנניה

@צדיק-וטוב-לו אולי כבוד הרב ג'ימני?

י. פל.

אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.

יש כמה דרכים מקובלות:

✅ דרך פשוטה (pdftotext + iconv)

ברוב המקרים זה מספיק:

חלץ טקסט מה-PDF:

pdftotext input.pdf output.txt

המר מ-Windows-1255 ל-UTF-8:

iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txt

אם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:

pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt

✅ דרך מדויקת יותר (Python)

טוב כשצריך שליטה מלאה:

from pdfminer.high_level import extract_text

text = extract_text("input.pdf")

# אם זה כבר מחרוזת לא תקינה, לפעמים צריך:
text_bytes = text.encode('windows-1255', errors='ignore')
fixed = text_bytes.decode('windows-1255')

with open("output_utf8.txt", "w", encoding="utf-8") as f:
    f.write(fixed)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:

נסה pdftotext -raw
או pdftotext -enc UTF-8
או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.

💡 טיפ חשוב

בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:

file output.txt

או:

uchardet output.txt

לפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.

אם תרצה, אפשר לתת פתרון מדויק יותר לפי:

מערכת הפעלה
כלי העבודה שלך (CLI / Python / תוכנה גרפית)
דוגמה לפלט משובש

מה אתה משתמש כרגע? 😊

יאיר דניאל

@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].

א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם

צדיק וטוב לו

@י.-פל. אין לי פייתון, ולא מתחשק לי להתקין.
אתה יכול לנסות להריץ את זה על חגיגה שהביאו למעלה?

הבל הבלים

@יאיר-דניאל
כמובן שאני יודע להעלות לגיטהאב.
לא הייתי מספיק ברור, בגלל הגודל, אני לא יודע, וגם אין לי כוח לבדוק.
למעשה, עשיתי גם אופטימיזציה לקבצים, והם שוקלים - 1.6, אבל האיכות תמונה שלהם גרועה מאוד, יותר מהקבצים שיש היום לאוצריא, אבל בזום 100% זה בסדר, אני ינסה להעלות את שתיהם אם אני יצליח.

פורום אוצריא

להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא

שלב א': "השטחת" הקובץ לתמונה (כדי להיפטר מהקידוד הפגום)

שלב ב': ביצוע OCR בעברית על הקובץ ה"נקי"

למה זה הפתרון הכי טוב עבורך?

פתרון מהיר (ללא הדפסה):

הניסיון היחיד ללא OCR: החלפת גופן (Font Replacement)

למה OCR הוא בעצם "מכונת תיקון" במקרה שלך?

לסיכום:

✅ דרך פשוטה (pdftotext + iconv)

✅ דרך מדויקת יותר (Python)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

💡 טיפ חשוב

✅ דרך פשוטה (pdftotext + iconv)

✅ דרך מדויקת יותר (Python)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

💡 טיפ חשוב