הצעת ייעול | אימון מודל לפיענוח טקסטים

amram

יש לי כיון אבל כמובן שצריך לעבוד על זה
השאלה אם אתה לא חושב שזה יותר יעיל
במקום שיצטרכו להקליד את הכל פשוט רק יתקנו וככה לאט לאט ילמד
בעבר נתקלתי במשהו דומה רק של שמע לטקסט ובו משתמשים נרשמים ואז מאמנים אותו
משמיעים להם קטע וטקסט ואז הם צריכים לאשר או לתקן וכך הוא לומד
אצלנו אם נעשה כזה דבר הרווח יהיה כפול גם בסופו של יום הספר יהיה מוגה וגם המודל ילמד לאט לאט ופחות טעויות

מישהו 1

מהניסיון שלי פעם כשעבדתי עם גימני הייתי לבד מעתיק תמונות אליו ולאחמ"כ מתקן אותו ואומר לו מה האמת והוא ממש היה משתפר, אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.

arieldaniely

@amram כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

והמודל יאומן על ידי המשתמשים היקרים

לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים

amram

@arieldaniely כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים

ברור שכדאי השאלה אם זה יהיה טוב מכיון שבעברית המודרנית שונה מהעברית הספרותית
תראה לדוגמא יעקובוב פיתח משהו
https://yakobov-dev.co.il/כלים/OcrChecker.aspx
אפשר גם לבקש מדיקטה מה שיש להם לא רע בכלל ואז לאמן אותו

arieldaniely

@amram כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

תראה לדוגמא יעקובוב פיתח משהו
https://yakobov-dev.co.il/כלים/OcrChecker.aspx

זה לא אותו הדבר, הוא פיתח זיהוי שגיאות, לא OCR, לאמן מודל זיהוי שגיאות זה דבר אחר לגמרי, למרות שזה יכול להיות רעיון טוב.

amram

קודם צריכים לבחור מודל בקוד פתוח לסריקת טקסט הכי טוב ומתאים לנו משהו מבוסס AI ולא בשיטה הישנה של פעם
אחר כך הרעיון של האימון למודל זה בעיקר על ידי המשתמשים כל תיקון שלהם יעזור למודל לקלוט פעם הבאה את הטעויות כמובן שזה יהיה תלוי בפונטים בכתב רשי לדוגמא מסתבר שהטעויות יהיו אחרות
האימון שלנו זה רק להתאים אותו לשפה התלמודית

דוד משה 1

אם אתם מאוד רוצים אני התחלתי משהו כזה https://github.com/mosh-dvd/ocr-hebrew

amram

@דוד-משה-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

אם אתם מאוד רוצים אני התחלתי משהו כזה https://github.com/mosh-dvd/ocr-hebrew

האם זה נראה לך מתאים לפרוייקט שלנו?
אם תוכל קצת לפרט מה המעלות שלו
האם הוא מבוסס AI
איזה שיטה של סריקה ועיבוד הוא משתמש

דוד משה 1

בניתי אותו מאפס אבל אין לי זמן לטפל בו הוא מסתבר צריך הרבה מאוד אימון וגם תיקון באגים

דוד משה 1

אם כי הוא בנוי בשפת סף ....

arieldaniely

@דוד-משה-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

צריך הרבה מאוד אימון וגם תיקון באגים

כמו שאמרתי... אולי כדאי ללכת בכיוון של https://yakobov-dev.co.il/כלים/OcrChecker.aspx שרק מתקן שגיאות, זה אמור להיות קל ומהיר יותר [ואולי אפילו לא יהיה צריך לאמן מודל אלא רק אלגוריתמים פשוטים שיתקנו שגיאות כתיב].

amram

@arieldaniely כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

כמו שאמרתי... אולי כדאי ללכת בכיוון של https://yakobov-dev.co.il/כלים/OcrChecker.aspx שרק מתקן שגיאות, זה אמור להיות קל ומהיר יותר [ואולי אפילו לא יהיה צריך לאמן מודל אלא רק אלגוריתמים פשוטים שיתקנו שגיאות כתיב].

אני מסכים שיותר קל רק תיקון שגיאות אבל בהשקעה לטווח ארוך עדיף נראלי לאמן מודל מבוסס AI
תחשוב שיש עשרות אלפי ספרי קודש וככל שהמודל יהיה יותר חכם ככה יחסוך עבודה בהמשך
אולי יהיה זמן שנוכל כבר להכניס ישירות מהמודל לתוכנה ללא צורך בהגהה

י. פל.

בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.

amram

@י.-פל. כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.

אם אתה אומר אתה יודע
בכל אופן אפשר ללכת על ההצעה השניה לקחת מודל מוכן ורק לאמן בו את השיפור לשפה התלמודית

דאנציג

@amram @י.-פל.
נתקלתי בדיוק בסוף שבוע שעבר במודל של פרוייקט פנינים לOCR לכתב רש"י.
אני עדיין לא הצלחתי להפעיל את התוכנה על כתב רש"י (חסר רכיבים שהורדתם חסומה בנטפרי - שלחתי בקשת פתיחה, אתמול ועדיין לא קיבלתי תשובה).

ע"ה דכו"ע

זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאות

amram

@ע-ה-דכו-ע כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאות

משום מה בספריה אצלי גם הגימיני וגם הOCR לא עובד לי כותב שגיאה

ניסיתם לדבר עם דיקטה אולי יתנו לנו את המודל שלהם?

איש גמזו

@מישהו-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:

אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.

למעשה, מן הסתם רוב הספרים הרלוונטיים לשליפת הטקסט הם בכתב רש״י (ספרי היברו הישנים)

אהרן

האמת שבעבר פיתחתי תוכנה כזאת שמחליפה כמה מילים בבת אחת, ורשמתי לעצמי את כל הטעויות הנפוצות, וכך ע"י טעינת הקובץ עם ההחלפות זה היה מחליף את הכל. רק היה הרבה באגים ואין לי זמן לטפל בזה.

חנניה

@amram
אם כבר,
למה לא להתנדב לדיקטה וא"כ להתאים את הספרים שלהם?

ואגב, אולי כדאי לשאול את @11 או את המומחה שלו לעניני סטיסטיקה ותוכן מה יצא עם זה..

פורום אוצריא

הצעת ייעול | אימון מודל לפיענוח טקסטים