בירור | OCR לקבצי PDF לחיפוש בתוכנה

י. פל.

@AVIVI כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

אני מבין שצריך איכשהו לעשות OCR לספר

כן, וזהו.
איך עושים OCR? עם תוכנות ייעודיות, למשל ABBYY או דומותיה, שאל במתמחים.

צדיק וטוב לו

@AVIVI כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

(יש לי ספרים של 7,000+ עמודים לספר)

זה סיפור.
סביר שתצטרך מחשב ממש טוב, והרבה זמן.

11

לעשות OCR לספר, אין פשוט מזה, אסביר לך בשפה שווה לכל נפש:

בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבי כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.

אבל היום יש גם תוכנות שעושות את כל זה לבד, אתה יכול להעזר בהן, יש ברחבי האינטרנט רבים כאלו חינמיים, כולל בעברית.

נ.ב. מכיר את הסיפור על וכו' שאמר שאם הוא שואל אם מותר לשתות חלב לארבע כוסות צריך לבדוק אם יש לו יין ובשר ומשמנים? ובכן גם כאן הרב אמר שאם יש לך ספר של 7000 עמודים, זה ודאי לא ספר סרוק, כי נפח כזה של ספר סרוק זה לא יפתח לך עעל מחשב נורמלי, ולכן בהכרח מדובר על קובץ וורד וכדומה שהפך לPDF, ללמדינו שמן הסתם כבר יש בו שכבת OCR.
ויהי לפלא.

י. פל.

@11

מיהו הAI המוכשר כל-כך?

מעמע

@11 חמוד.
מה שכן, בהיברו בוקס או לפחות במאגר הספריה התורנית יש כבר שכבת טקסט ואוצריא עושה גם לה אינדקס.
אגב, זה עובד מצוין.
זה אפשרי בתור ספרים אישיים.

11

@י.-פל. כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

@11

מיהו הAI המוכשר כל-כך?

אתה מזלזל בכישורים שלי?

י. פל.

@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

@י.-פל. כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

@11

מיהו הAI המוכשר כל-כך?

אתה מזלזל בכישורים שלי?

לא חושב שישבת לכתוב פוסט ארוך ומלא במילים נמלצות, ק' בשביל לענות תשובה ל'איך עושים OCR'... במיוחד שהשלב השני נע בין שטויות גולמיות לטיעונים רלוונטיים רק מ2023, שאינם שייכים באופן ישיר לתחום הOCR.

11

לא יודע מה עצרת ב2023. העולם עדיין משתמש בכל אלו

יאיר דניאל

@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

אסביר לך בשפה שווה לכל נפש:

@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

בשביל תוצאה מקצועית אתה חייב לגשת ישר לסטרים של הקובץ ברמת הביט, צריך לחלץ את המידע הבינארי הגולמי ולבצע עליו ביטול כימות ידני כדי להימנע מארטיפקטים של דחיסה. אחרי שיש לך את המטריצה הגולמית, תפעיל מסנן מורפולוגי של פתיחה וסגירה כדי לנקות רעשי רקע סטוכסטיים, ומיד אחר כך תחשב את הגרדיאנטים עם אופרטור סובל כדי לבצע זיהוי קצוות וקטורי. רק אז תבצע בינאריזציה אדפטיבית מבוססת מקומותש תתחשב בשונות של הפיקסלים, אחרת הכל יצא לך מרוח בגלל חוסר תאימותפ אזה מרחבית.
בשלב השני, אתה בונה ארכיטקטורה של רשת עצבית רקורסיבית משולבת עם שכבות קונבולוציה, ומאמן אותה בשיטת על ערכת נתונים ייעודית שתייצר מהגופן של הספר עם אוגמנטציה של עיוותים גיאומטריים. את פלט ההסתברויות של הרשת תזרים לתוך אלגוריתם ויטרבH כדי למצוא את הרצף הסמנטי בעל הסבירות המקסימלית במרחב הוקטורי, ורק בסוף תבצע סריאליזציה חזרה לפורמט יוניקוד, בתנאי כמובן שהקצת נכון את הזיכרון במעבד הגרפי בזמן האינפרנס כדי לא לקבל גלישת מחסנית באמצע הריצה.

וואי וואי וואי..
לזה אתה קורה שווה לכל נפש???
או שאתה איזה גאון שיגעון - שחושב שאין בחור ישיבה קלאסי/אברך כולל שלא מכיר מה זה בינארציה אדפטיבית או לחילופין מה זה אופרטור סובל, או שזה מועתק מבינה מלאכותית = שאוחזת ממך עולמות, ובטוחה שאתה מבין כל מה שהיא כתבה.
בכ"א מסקנה במילה אחת - זה הטקסט הכי רחוק שראיתי במהלך ימי חיי (ואני כבר נמצא פה כמה שנים על הכדור...) מהביטוי "שווה לכל נפש"...

דאנציג

@יאיר-דניאל כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

"שווה לכל נפש"

https://www.hamichlol.org.il/לשון_סגי_נהור

תן כבוד למי שרוצה להעלות חיוך על קוראי הפורום...

11

זה סתם שפה גבוהה. זה מושגים פשוטים.
בינארציה אדפטיבית זה לזהות את השחור ולבן בצורה ברורה יותר לפי אזור הטקסט. זה סתם שפה מודרנית לזיל בתר רובא (בגדרי רוב וקרוב, שיזהה כל נקודה לפי רוב האזור שהיא נמצאת בו).
אופרטור סובל זה גם סתם שפה גבוהה שבאה לבטא איפה נמצא הגבול של הטקסט בזוויות, זה בדיוק כמו דין עיר העשויה כקשת לענין תחום שבת (עירובין שם, שם), אז אותו דבר בדיוק בדף של PDF.
העקרון מאוד פשוט, זה ענין של מילון.

י. פל.

@11
אהבתי...

דאנציג

@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

(עירובין שם, שם),

???

אז אחרי הכל זה כן בינה מלאכותית, או שאתה משתמש במילון תורני?

11

@דאנציג כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

@11 כתב בבירור | OCR לקבצי PDF לחיפוש בתוכנה:

(עירובין שם, שם),

???

אז אחרי הכל זה כן בינה מלאכותית, או שאתה משתמש במילון תורני?

זה על דרך הבדיחותא, היתול, שחוק, הלצה (הלוצ"ע בלע"ז). אם באמת אתה מחפש עיין בדף נ"ז ע"ב.

אבל לגופו של ענין ברור שאני עושה שימוש נרחב בבינה מלאכותית ורוב חכמתי הימנה, אצלינו בכולל לא הספיקו את כל מה שאני יודע, ובפרט לא בענייני מחשבים.

AVIVI

@11 יש"כ על החריזה
אבל סריקה של מתיבתא עמ"ס שבת כוללת 7,000+ דפים וד"ל...
וזה אכן נפתח על מחשב קצת פחות מנורמאלי x1 carbon i7 6600

פורום אוצריא

בירור | OCR לקבצי PDF לחיפוש בתוכנה