הצעת ייעול | אימון מודל לפיענוח טקסטים
-
@י.-פל. כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
בשביל לאמן מודל, צריך המון דאטה, והמון ידע.
אני לא חושב שהידע הצבר בכלל משתמשי הפורום הזה מספיק לכך.אם אתה אומר אתה יודע
בכל אופן אפשר ללכת על ההצעה השניה לקחת מודל מוכן ורק לאמן בו את השיפור לשפה התלמודית@amram @י.-פל.
נתקלתי בדיוק בסוף שבוע שעבר במודל של פרוייקט פנינים לOCR לכתב רש"י.
אני עדיין לא הצלחתי להפעיל את התוכנה על כתב רש"י (חסר רכיבים שהורדתם חסומה בנטפרי - שלחתי בקשת פתיחה, אתמול ועדיין לא קיבלתי תשובה). -
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאות@ע-ה-דכו-ע כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאותמשום מה בספריה אצלי גם הגימיני וגם הOCR לא עובד לי כותב שגיאה
ניסיתם לדבר עם דיקטה אולי יתנו לנו את המודל שלהם?
-
מהניסיון שלי פעם כשעבדתי עם גימני הייתי לבד מעתיק תמונות אליו ולאחמ"כ מתקן אותו ואומר לו מה האמת והוא ממש היה משתפר, אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.@מישהו-1 כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
אבל עדיין המודל של ווינדוס יותר טוב מההכי משופר של גימיני.
רק בכתב רש"י שבזה באמת עדיין גימיני עדיין יותר טוב.למעשה, מן הסתם רוב הספרים הרלוונטיים לשליפת הטקסט הם בכתב רש״י (ספרי היברו הישנים)
-
@ע-ה-דכו-ע כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
זה ס"ה מודל של tesseract שאומן על כתב רש"י, אבל המודל הזה מראש לא מספיק טוב.
דווקא ניסיתי להכניס אותו לפחות לאופציה של הOCR הרגיל שבאתר ספריית אוצריא, שהוא גם כן עובד ע"י tesseract, אבל זה לא הצליח כנראה בגלל אי תאימות של הגירסאותמשום מה בספריה אצלי גם הגימיני וגם הOCR לא עובד לי כותב שגיאה
ניסיתם לדבר עם דיקטה אולי יתנו לנו את המודל שלהם?
-
@חנניה כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
@amram
אם כבר,
למה לא להתנדב לדיקטה וא"כ להתאים את הספרים שלהם?אם אני אתנדב לדיקטה זה לא כל כך יעזור אחד לפה אחד לשם
אם נצליח להכניס את מנוע הסריקה שלהם לספריה
אז יעזור לכל העורכים יש כמה מאות אתה מבין שזה עולם אחר להקליד לבין לסרוק ויעבוד עם מודל חכם וכן מודל שפה שיתן תוצאות טובות כמו של דיקטה ורק העורך מתקן פה ושם -
@זאב-לבן כתב בהצעת ייעול | אימון מודל לפיענוח טקסטים:
איך למעשה דיקטה מצליחה גם על ספרים ישנים ואותיות שבורות?
תשאל אותם
אתה יכול לראות כאן שהם מסבירים קצת אבל לא מגלים בדיוק איך הם עובדים
https://jewishaction.com/cover-story/artificial-intelligence-the-newest-revolution-in-torah-study/ -
ביקשתי מדיקטה מזמן שאני מוכן להתנדב ולעבוד אצלם בחינם
והם הודו לי, ואמרו שרשמו את זה, ואם יהיה צורך יפנו אלי...