הצעת ייעול | אימון מודל לפיענוח טקסטים
-
יש לי כיון אבל כמובן שצריך לעבוד על זה
השאלה אם אתה לא חושב שזה יותר יעיל
במקום שיצטרכו להקליד את הכל פשוט רק יתקנו וככה לאט לאט ילמד
בעבר נתקלתי במשהו דומה רק של שמע לטקסט ובו משתמשים נרשמים ואז מאמנים אותו
משמיעים להם קטע וטקסט ואז הם צריכים לאשר או לתקן וכך הוא לומד
אצלנו אם נעשה כזה דבר הרווח יהיה כפול גם בסופו של יום הספר יהיה מוגה וגם המודל ילמד לאט לאט ופחות טעויות -
חשבתי על רעיון במקום שננסה לסמוך כל הזמן על אחרים
כדאי נפתח מודל פינעוח טקסט מתמונה מתאים ללשון הקודש ולספרות הקודש
והמודל יאומן על ידי המשתמשים היקרים
כל משתמש יקבל קטע ויצטרך לתקן את הטעויות שלו וכך ילמד לאט לאט להשתפר
במקום שכל משתמש יקבל להקליד חומר יצטרך לעבור על הפיענוח שלו ולתקן ואז כך המודל ילמד וישתפר ויתאים עצמו לספרות היהודית@amram כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
והמודל יאומן על ידי המשתמשים היקרים
לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים
-
@amram כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
והמודל יאומן על ידי המשתמשים היקרים
לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים
@arieldaniely כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים
ברור שכדאי השאלה אם זה יהיה טוב מכיון שבעברית המודרנית שונה מהעברית הספרותית
תראה לדוגמא יעקובוב פיתח משהו
https://yakobov-dev.co.il/כלים/OcrChecker.aspx
אפשר גם לבקש מדיקטה מה שיש להם לא רע בכלל ואז לאמן אותו -
@arieldaniely כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
לאמן מאפס פחות פרקטי, אולי יהיה אפשר למצוא מודל קוד פתוח ולשפר אותו ע"י המשתמשים
ברור שכדאי השאלה אם זה יהיה טוב מכיון שבעברית המודרנית שונה מהעברית הספרותית
תראה לדוגמא יעקובוב פיתח משהו
https://yakobov-dev.co.il/כלים/OcrChecker.aspx
אפשר גם לבקש מדיקטה מה שיש להם לא רע בכלל ואז לאמן אותו@amram כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
תראה לדוגמא יעקובוב פיתח משהו
https://yakobov-dev.co.il/כלים/OcrChecker.aspxזה לא אותו הדבר, הוא פיתח זיהוי שגיאות, לא OCR, לאמן מודל זיהוי שגיאות זה דבר אחר לגמרי, למרות שזה יכול להיות רעיון טוב.
-
קודם צריכים לבחור מודל בקוד פתוח לסריקת טקסט הכי טוב ומתאים לנו משהו מבוסס AI ולא בשיטה הישנה של פעם
אחר כך הרעיון של האימון למודל זה בעיקר על ידי המשתמשים כל תיקון שלהם יעזור למודל לקלוט פעם הבאה את הטעויות כמובן שזה יהיה תלוי בפונטים בכתב רשי לדוגמא מסתבר שהטעויות יהיו אחרות
האימון שלנו זה רק להתאים אותו לשפה התלמודית -
אם אתם מאוד רוצים אני התחלתי משהו כזה https://github.com/mosh-dvd/ocr-hebrew
@דוד-משה-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
אם אתם מאוד רוצים אני התחלתי משהו כזה https://github.com/mosh-dvd/ocr-hebrew
האם זה נראה לך מתאים לפרוייקט שלנו?
אם תוכל קצת לפרט מה המעלות שלו
האם הוא מבוסס AI
איזה שיטה של סריקה ועיבוד הוא משתמש -
קודם צריכים לבחור מודל בקוד פתוח לסריקת טקסט הכי טוב ומתאים לנו משהו מבוסס AI ולא בשיטה הישנה של פעם
אחר כך הרעיון של האימון למודל זה בעיקר על ידי המשתמשים כל תיקון שלהם יעזור למודל לקלוט פעם הבאה את הטעויות כמובן שזה יהיה תלוי בפונטים בכתב רשי לדוגמא מסתבר שהטעויות יהיו אחרות
האימון שלנו זה רק להתאים אותו לשפה התלמודית@דוד-משה-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
צריך הרבה מאוד אימון וגם תיקון באגים
כמו שאמרתי... אולי כדאי ללכת בכיוון של https://yakobov-dev.co.il/כלים/OcrChecker.aspx שרק מתקן שגיאות, זה אמור להיות קל ומהיר יותר [ואולי אפילו לא יהיה צריך לאמן מודל אלא רק אלגוריתמים פשוטים שיתקנו שגיאות כתיב].
-
@דוד-משה-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
צריך הרבה מאוד אימון וגם תיקון באגים
כמו שאמרתי... אולי כדאי ללכת בכיוון של https://yakobov-dev.co.il/כלים/OcrChecker.aspx שרק מתקן שגיאות, זה אמור להיות קל ומהיר יותר [ואולי אפילו לא יהיה צריך לאמן מודל אלא רק אלגוריתמים פשוטים שיתקנו שגיאות כתיב].
@arieldaniely כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
כמו שאמרתי... אולי כדאי ללכת בכיוון של https://yakobov-dev.co.il/כלים/OcrChecker.aspx שרק מתקן שגיאות, זה אמור להיות קל ומהיר יותר [ואולי אפילו לא יהיה צריך לאמן מודל אלא רק אלגוריתמים פשוטים שיתקנו שגיאות כתיב].
אני מסכים שיותר קל רק תיקון שגיאות אבל בהשקעה לטווח ארוך עדיף נראלי לאמן מודל מבוסס AI
תחשוב שיש עשרות אלפי ספרי קודש וככל שהמודל יהיה יותר חכם ככה יחסוך עבודה בהמשך
אולי יהיה זמן שנוכל כבר להכניס ישירות מהמודל לתוכנה ללא צורך בהגהה -
בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.@י.-פל. כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.אם אתה אומר אתה יודע
בכל אופן אפשר ללכת על ההצעה השניה לקחת מודל מוכן ורק לאמן בו את השיפור לשפה התלמודית -
@י.-פל. כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.אם אתה אומר אתה יודע
בכל אופן אפשר ללכת על ההצעה השניה לקחת מודל מוכן ורק לאמן בו את השיפור לשפה התלמודית@amram @י.-פל.
נתקלתי בדיוק בסוף שבוע שעבר במודל של פרוייקט פנינים לOCR לכתב רש"י.
אני עדיין לא הצלחתי להפעיל את התוכנה על כתב רש"י (חסר רכיבים שהורדתם חסומה בנטפרי - שלחתי בקשת פתיחה, אתמול ועדיין לא קיבלתי תשובה). -
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאות@ע-ה-דכו-ע כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאותמשום מה בספריה אצלי גם הגימיני וגם הOCR לא עובד לי כותב שגיאה
ניסיתם לדבר עם דיקטה אולי יתנו לנו את המודל שלהם?
-
מהניסיון שלי פעם כשעבדתי עם גימני הייתי לבד מעתיק תמונות אליו ולאחמ"כ מתקן אותו ואומר לו מה האמת והוא ממש היה משתפר, אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.@מישהו-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.למעשה, מן הסתם רוב הספרים הרלוונטיים לשליפת הטקסט הם בכתב רש״י (ספרי היברו הישנים)
-
@ע-ה-דכו-ע כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאותמשום מה בספריה אצלי גם הגימיני וגם הOCR לא עובד לי כותב שגיאה
ניסיתם לדבר עם דיקטה אולי יתנו לנו את המודל שלהם?