להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא

יאיר דניאל

@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

ואם יש לך גירסה ישנה, למה שלא תעדכן

שיקול של גודל - הישןם שוקל 500 מ"ב, החדש כמעט ג'יגה אאל"ט - ואין לי צורך מיוחד בחדש שאין לי בישן

הבל הבלים

@יאיר-דניאל
המודלי OCR אמורים להיות הרבה הרבה יותר טובים.

דורש טוב

@יאיר-דניאל שמתי לב שזה בכלל לא קובץ תמונה עם שכבת טקסט כמו באוצריא, אלא זה קובץ שמוגדר כטקסט כמו קובץ וורד ששמרו כPDF
רק שמשום מה הוא לא מזוהה כעברית אלא משהו משובש
אם ככה יכול להיות שיש דרך להעתיק את הטקסט בעצמו בלי OCR בכלל ולהפוך אותו לOCR בדיוק מושלם
@מישהו שמבין בזה?

חנניה

@דורש-טוב כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

שמתי לב שזה בכלל לא קובץ תמונה עם שכבת טקסט כמו באוצריא, אלא זה קובץ שמוגדר כטקסט כמו קובץ וורד ששמרו כPDF

אתה מתכוין לוגשל?

יאיר דניאל

@חנניה כן

דורש טוב

כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

@מישהו שמבין בזה?

ג'מיני

ניתוח מדויק מאוד. העובדה שאתה יכול למחוק את הטקסט או שהדף עצמו מוגדר כטקסט, מעידה על כך שמדובר בקובץ וקטורי (נוצר ישירות מתוכנה כמו Word או אינדיזיין) ולא בסריקה.

הסיבה שאתה מקבל "ג'יבריש" או סימנים משובשים כשאתה מעתיק, נובעת מבעיית קידוד (Encoding). התוכנה יודעת איפה להניח כל אות מבחינה גרפית, אבל היא לא "מבינה" איזו אות זו באמת במפת התווים.

כדי לפתור את זה ולהפוך את הטקסט המשובש ל-OCR איכותי ותקין בעברית, עקוב אחר השלבים הבאים:

שלב א': "השטחת" הקובץ לתמונה (כדי להיפטר מהקידוד הפגום)

כדי שה-OCR יוכל לזהות את האותיות לפי הצורה שלהן (ולא לפי הקוד הפגום שלהן), עלינו להפוך את הדף לתמונה נקייה:

עבור ללשונית "קובץ" -> "הדפסה".
בבחירת המדפסת, בחר ב-PDF-XChange Printer או Microsoft Print to PDF.
לחץ על כפתור "מתקדם" (או הגדרות הדפסה) וחפש את האפשרות "הדפס כתמונה" (Print as Image).

הערה: הגדר רזולוציה של 300 או 600 DPI כדי לשמור על האיכות הגבוהה שחשובה לך.

אשר והדפס. כעת קיבלת קובץ PDF חדש שבו הכל הוא תמונה אחת איכותית, ללא קידוד משובש.

שלב ב': ביצוע OCR בעברית על הקובץ ה"נקי"

עכשיו כשהטקסט הוא רק "צורה" של אותיות, התוכנה תוכל לזהות אותו בקלות:

עבור ללשונית "המרה" (Convert).
לחץ על "זיהוי טקסט (OCR)".
בחלון שנפתח, וודא שהגדרת:

שפות: עברית (אם אין לך, לחץ על "הוסף שפה").
סוג פלט: "טקסט ניתן לחיפוש מעל תמונה" (Searchable Text over Image).

לחץ על אישור.

למה זה הפתרון הכי טוב עבורך?

דיוק: מכיוון שקובץ המקור שלך באיכות גבוהה, ה-OCR יזהה כמעט 100% מהטקסט ללא שגיאות.
תיקון הג'יבריש: ברגע שהפכת את הטקסט לתמונה, "מחקת" את המידע השגוי שהיה מוצמד לאותיות. ה-OCR יוצר מפת תווים חדשה ותקינה לחלוטין.
שמירה על המראה: הקובץ ייראה בדיוק אותו דבר, אבל עכשיו תוכל להעתיק ממנו טקסט בעברית תקינה.

פתרון מהיר (ללא הדפסה):

אם אתה לא רוצה להדפיס, תוכל לנסות בלשונית "המרה" -> "זיהוי טקסט", ובאפשרויות לבחור ב-"Ignore existing text" (התעלם מטקסט קיים). זה יכריח את התוכנה לבצע OCR על סמך צורת האותיות למרות שהיא כבר "רואה" שם טקסט (את הג'יבריש).

ובלי OCR ?
כלומר להפוך את הטקסט עצמו למשהו שניתן להעתקה?

מבחינה טכנית, אם הטקסט שאתה מעתיק יוצא כ"ג'יבריש", זה אומר שהמפה שמקשרת בין הצורה הגרפית של האות לבין הערך הדיגיטלי שלה (מה שנקרא Encoding או Character Map) שבורה.

במצב כזה, המחשב רואה "צורה" של האות א', אבל ב"תעודת הזהות" של האות הזו רשום שהיא בכלל הסימן @. כשאתה מעתיק, הוא מעתיק את "תעודת הזהות" ולא את המראה.

האם אפשר לתקן את זה בלי OCR? התשובה היא: בדרך כלל לא, אבל יש ניסיון אחד ששווה לעשות לפני שנכנעים ל-OCR:

הניסיון היחיד ללא OCR: החלפת גופן (Font Replacement)

לפעמים הבעיה היא רק בגופן המוטמע (Embedded). אם נכריח את התוכנה להשתמש בגופן תקני שמותקן אצלך במחשב, אולי המיפוי יסתדר.

עבור ללשונית עריכה (Edit) ובחר בכלי ערוך תוכן (Edit Content).
סמן את הטקסט המשובש (או Ctrl + A).
לחץ עליו קליק ימני ובחר מאפיינים (Properties).
בחלון המאפיינים שייפתח בצד, חפש את סעיף Text Styles (סגנונות טקסט) ושם את Font (גופן).
נסה לשנות את הגופן לגופן עברי סטנדרטי כמו Arial או David.

התוצאה האפשרית:

אם זה הצליח: הטקסט יהפוך לקריא וניתן להעתקה.
אם זה נכשל: הטקסט יהפוך לריבועים (Empty boxes) או שיישאר ג'יבריש. זה סימן שהמידע על האותיות פשוט לא קיים בקובץ.

למה OCR הוא בעצם "מכונת תיקון" במקרה שלך?

חשוב להבין: OCR הוא לא רק לסריקות גרועות. ב-PDF-XChange, ה-OCR יודע "להסתכל" על הציור של האותיות (שנראה מעולה כי זה קובץ מקור) ולתת להן "תעודת זהות" חדשה ותקינה בעברית.

אם תשתמש באופציה "Ignore Existing Text" (התעלם מטקסט קיים) בזמן ביצוע ה-OCR:

התוכנה תמחק את ה"ג'יבריש" הנסתר.
היא תנתח את צורת האותיות האיכותית שיש לך.
היא תדביק מעליהן שכבת טקסט חדשה, הפעם עם קידוד עברי תקני.

התוצאה: הקובץ יישאר באיכות המקורית הגבוהה שלו, אבל הטקסט יהיה סוף סוף "חי" ואמיתי.

לסיכום:

אם החלפת הגופן (בשיטת המאפיינים) לא עזרה, אין דרך אחרת מלבד OCR. היתרון הוא שעל קובץ וקטורי איכותי, ה-OCR רץ בשניות והדיוק שלו הוא כמעט 100%.

אולי למישהו יש משהו לעשות עם המידע הזה

צדיק וטוב לו

@דורש-טוב אתה יכול להביא לי דף אחד כזה לנסות לבדוק?
מה מקור הש"ס? היברובוקס? מהרשת?

חנניה

@צדיק-וטוב-לו למה שלא תוריד מהריפו?

דורש טוב

@צדיק-וטוב-לו העלתי פה מסכת חגיגה

@צדיק-וטוב-לו כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

מה מקור הש"ס? היברובוקס? מהרשת?

אין לי מושג @יאיר-דניאל
זה כמו של היברובוקס ואוצריא אבל זה נראה קובץ מקור

הבל הבלים

@דורש-טוב כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

זה כמו של היברובוקס

יש אותו דבר גם בהיברובוקס אבל שם הם הטביעו ע"ז סימן מים של זכויות יוצרים.

צבי דורש ציון

אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...

ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...

צדיק וטוב לו

ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.

מיכאלוש

@יהודי-צעיר
כמדומני שכבר שנים מאורות הדף היומי משתמשים בש"ס וילנא של מסורת הש"ס רק ללא ההערות שמסורת הש"ס עבדו אליהם
פנית לאחד משניהם ?

הבל הבלים

במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.

דורש טוב

@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב?

הבל הבלים

@דורש-טוב
לא, קודם הדפסתי את זה כתמונה, ואח"כ עשיתי OCR.
אבל כרגע הרשת שלי לא עומדת בזה, אני מקוה בערב להעלות את זה.

דורש טוב

@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15

הבל הבלים

@דורש-טוב
כן, זה שוקל 4.6 ג'יגה, וגם דחיסה לא עוזרת...

חנניה

@הבל-הבלים וכמה שוקל מה שיש היום באוצריא?

צדיק וטוב לו