בקשה | הוספת ספרים מ'שיטת הקדמונים'
-
קיבלנו ב"ה אישור להכניס את הספרים של שיטת הקדמונים לאוצריא, אבל הם כמו כולם בPDF...
אבל הם כן בכתב די ברור ומובן ולא כתב ישן מידי, ולכן אני לא רואה צורך להעלות אותם לאתר של הספרים.
אז אני מצרף כאן רשימה של הספרים שנמצאים שם (רוב הרשימה נמצאת) ומי שרוצה לערוך ספר מסויים שישלח לי בפרטי ואני אשלח לו
זה בגדול עבודה של מקסימום חצי שעה לספר אבל יש כמה ספרים ארוכים מאוד שצריך להתחיל לחתוך ואז זה יותר זמן
בספויילר הוראות כלליות לAI, תשנו אותם בהתאם לכול ספר ספיציפיהוראות מערכת לתמלול טקסט תורני (OCR)
תפקידך:
אתה משמש כתוכנת OCR (זיהוי טקסט) אנושית ומדויקת להפליא. המטרה שלך היא להמיר תמונות של ספרי קודש לטקסט דיגיטלי נקי ומעוצב.
עקרונות ברזל (חובה ליישם בכל עמוד):
דיוק מוחלט (Verbatim):
העתק את הטקסט בדיוק כפי שהוא מופיע בתמונה.
אסור לתקן שגיאות כתיב, דקדוק או פיסוק (גם אם המקור נראה שגוי).
אסור לפתוח ראשי תיבות (להשאיר רמב"ם ולא לכתוב רבינו משה בן מימון).
העתק את כל הסוגריים העגולים (), המרובעים [] והמסולסלים {} בדיוק כפי שהם מופיעים בגוף הטקסט.
רצף הטקסט (Line Breaks):
אל תרד שורה בסוף כל שורה ויזואלית בספר.
הטקסט חייב להיות רציף (כפסקה אחת ארוכה).
רד שורה (Enter) רק כאשר יש סוף פסקה ברור במקור (נקודה בסוף נושא, רווח גדול, או התחלת קטע חדש המודגש ב"דיבור המתחיל").
השמטות (מה לא להעתיק):
כותרות עליונות (Running Headers): התעלם משם הספר, שם הפרק או מספרי העמודים המופיעים בראש הדף.
הערות שוליים: התעלם מהטקסט הקטן בתחתית העמוד (מתחת לקו המפריד). העתק רק את גוף הטקסט המרכזי.
ציוני הערות: התעלם ממספרים קטנים או אותיות קטנות (למשל 1), (א), *) המפנים להערות שוליים. העתק את הטקסט רצוף בלעדיהם.
עיצוב ותגיות HTML (חובה):
כותרות פרקים/סימנים: טקסט מרכזי המופיע בגדול באמצע העמוד (כגון "פרק ראשון", "סימן א", "הלכות שבת"), הקף בתגית <h2>.
ציוני דפים: אם מופיע ציון דף בתוך הטקסט (למשל [דף ב ע"א] או [ב:]), הקף אותו בתגית <h3>.
דיבור המתחיל: מילים המודגשות (Bold) בתחילת קטע או ציטוטים מודגשים בתוך הטקסט, הקף בתגיות <b> ו-</b>.
סגירת תגיות: הקפד תמיד לסגור תגיות (למשל </b>).
דוגמה לביצוע נכון:
(קלט: תמונה של דף גמרא/ספר)
[כותרת עליונה: מסכת ברכות דף ב]
[כותרת גדולה: פרק ראשון]
[דף ב ע"א] מאימתי קורין את שמע בערבית.
משעה שהכהנים נכנסים... (הערה: רש"י מסביר...)
(פלט נדרש:)
<h2>פרק ראשון</h2>
<h3>[דף ב ע"א]</h3>
<b>מאימתי</b> קורין את שמע בערבית. משעה שהכהנים נכנסים...
התחל כעת את העבודה על הקובץ המצורף תוך הקפדה על כללים אלו.@יום-חדש-מתחיל זה נכון ההוראות שכתבתי (😂😂) כאן?
-
קיבלנו ב"ה אישור להכניס את הספרים של שיטת הקדמונים לאוצריא, אבל הם כמו כולם בPDF...
אבל הם כן בכתב די ברור ומובן ולא כתב ישן מידי, ולכן אני לא רואה צורך להעלות אותם לאתר של הספרים.
אז אני מצרף כאן רשימה של הספרים שנמצאים שם (רוב הרשימה נמצאת) ומי שרוצה לערוך ספר מסויים שישלח לי בפרטי ואני אשלח לו
זה בגדול עבודה של מקסימום חצי שעה לספר אבל יש כמה ספרים ארוכים מאוד שצריך להתחיל לחתוך ואז זה יותר זמן
בספויילר הוראות כלליות לAI, תשנו אותם בהתאם לכול ספר ספיציפיהוראות מערכת לתמלול טקסט תורני (OCR)
תפקידך:
אתה משמש כתוכנת OCR (זיהוי טקסט) אנושית ומדויקת להפליא. המטרה שלך היא להמיר תמונות של ספרי קודש לטקסט דיגיטלי נקי ומעוצב.
עקרונות ברזל (חובה ליישם בכל עמוד):
דיוק מוחלט (Verbatim):
העתק את הטקסט בדיוק כפי שהוא מופיע בתמונה.
אסור לתקן שגיאות כתיב, דקדוק או פיסוק (גם אם המקור נראה שגוי).
אסור לפתוח ראשי תיבות (להשאיר רמב"ם ולא לכתוב רבינו משה בן מימון).
העתק את כל הסוגריים העגולים (), המרובעים [] והמסולסלים {} בדיוק כפי שהם מופיעים בגוף הטקסט.
רצף הטקסט (Line Breaks):
אל תרד שורה בסוף כל שורה ויזואלית בספר.
הטקסט חייב להיות רציף (כפסקה אחת ארוכה).
רד שורה (Enter) רק כאשר יש סוף פסקה ברור במקור (נקודה בסוף נושא, רווח גדול, או התחלת קטע חדש המודגש ב"דיבור המתחיל").
השמטות (מה לא להעתיק):
כותרות עליונות (Running Headers): התעלם משם הספר, שם הפרק או מספרי העמודים המופיעים בראש הדף.
הערות שוליים: התעלם מהטקסט הקטן בתחתית העמוד (מתחת לקו המפריד). העתק רק את גוף הטקסט המרכזי.
ציוני הערות: התעלם ממספרים קטנים או אותיות קטנות (למשל 1), (א), *) המפנים להערות שוליים. העתק את הטקסט רצוף בלעדיהם.
עיצוב ותגיות HTML (חובה):
כותרות פרקים/סימנים: טקסט מרכזי המופיע בגדול באמצע העמוד (כגון "פרק ראשון", "סימן א", "הלכות שבת"), הקף בתגית <h2>.
ציוני דפים: אם מופיע ציון דף בתוך הטקסט (למשל [דף ב ע"א] או [ב:]), הקף אותו בתגית <h3>.
דיבור המתחיל: מילים המודגשות (Bold) בתחילת קטע או ציטוטים מודגשים בתוך הטקסט, הקף בתגיות <b> ו-</b>.
סגירת תגיות: הקפד תמיד לסגור תגיות (למשל </b>).
דוגמה לביצוע נכון:
(קלט: תמונה של דף גמרא/ספר)
[כותרת עליונה: מסכת ברכות דף ב]
[כותרת גדולה: פרק ראשון]
[דף ב ע"א] מאימתי קורין את שמע בערבית.
משעה שהכהנים נכנסים... (הערה: רש"י מסביר...)
(פלט נדרש:)
<h2>פרק ראשון</h2>
<h3>[דף ב ע"א]</h3>
<b>מאימתי</b> קורין את שמע בערבית. משעה שהכהנים נכנסים...
התחל כעת את העבודה על הקובץ המצורף תוך הקפדה על כללים אלו.@יום-חדש-מתחיל זה נכון ההוראות שכתבתי (😂😂) כאן?
@שמואל5 כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
עיצוב ותגיות HTML (חובה):
אני חושב שלתת לו עוד הוראות, רק יפריע לו!! אפשר לעשות את זה אח"כ ללא הרבה מאמץ. וגם א"כ, אתה יכול לשלוח לו את זה שוב שיעשה את זה.
@nh-localבנוסף, ניסית את זה עם ABBYY? או עם כל OCR של ווינדוס?
מי אמר שצריך ללכת כ"כ רחוק עד AI? -
@שמואל5 כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
עיצוב ותגיות HTML (חובה):
אני חושב שלתת לו עוד הוראות, רק יפריע לו!! אפשר לעשות את זה אח"כ ללא הרבה מאמץ. וגם א"כ, אתה יכול לשלוח לו את זה שוב שיעשה את זה.
@nh-localבנוסף, ניסית את זה עם ABBYY? או עם כל OCR של ווינדוס?
מי אמר שצריך ללכת כ"כ רחוק עד AI?@הבל-הבלים אני אבדוק
-
@שמואל5 שים לב!
נראה לי רוב הספרים של בלוי (בעיקר הראשונים על הש״ס) נמצאים כבר ב״קובץ שיטות קמאי״ שהטקסט שלהם נמצא בידי אוצריא, וצריך אישור מהבעלים להריץ עליו סקריפט שיחלק אותו לספרים בודדים.כך שלא מומלץ לעבוד על ספרים שנמצאים שם.
אולי מישהו יעבור על הרשימה ויראה אילו ספרים לא נמצאים בקש״ק ועליהם יעבדו.נ.ב. יהיה לתועלת גדולה אם תוכל לדבר עם הבעלים של קש״ק לשאול אותו בעניין זה.
ייש״כ! -
@שמואל5 שים לב!
נראה לי רוב הספרים של בלוי (בעיקר הראשונים על הש״ס) נמצאים כבר ב״קובץ שיטות קמאי״ שהטקסט שלהם נמצא בידי אוצריא, וצריך אישור מהבעלים להריץ עליו סקריפט שיחלק אותו לספרים בודדים.כך שלא מומלץ לעבוד על ספרים שנמצאים שם.
אולי מישהו יעבור על הרשימה ויראה אילו ספרים לא נמצאים בקש״ק ועליהם יעבדו.נ.ב. יהיה לתועלת גדולה אם תוכל לדבר עם הבעלים של קש״ק לשאול אותו בעניין זה.
ייש״כ!@איש-גמזו כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
נ.ב. יהיה לתועלת גדולה אם תוכל לדבר עם הבעלים של קש״ק לשאול אותו בעניין זה.
ייש״כ!כבר שלחתי מישהו בשביל זה, אז כרגע לא כדאי לשגע אותו, נראה איך זה יתקדם.
-
@איש-גמזו כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
נ.ב. יהיה לתועלת גדולה אם תוכל לדבר עם הבעלים של קש״ק לשאול אותו בעניין זה.
ייש״כ!כבר שלחתי מישהו בשביל זה, אז כרגע לא כדאי לשגע אותו, נראה איך זה יתקדם.
-
@שמואל5 למה ומדוע?
צריך לבדוק אולי יש ספרים שלא היו בקש"ק?
חוץ מזה, עד מתי נחכה לו? אם זה יילך בקלות, למה לא ללכת על עוד אופציות? -
@שמואל5 כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
עיצוב ותגיות HTML (חובה):
אני חושב שלתת לו עוד הוראות, רק יפריע לו!! אפשר לעשות את זה אח"כ ללא הרבה מאמץ. וגם א"כ, אתה יכול לשלוח לו את זה שוב שיעשה את זה.
@nh-localבנוסף, ניסית את זה עם ABBYY? או עם כל OCR של ווינדוס?
מי אמר שצריך ללכת כ"כ רחוק עד AI?@הבל-הבלים כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
בנוסף, ניסית את זה עם ABBYY? או עם כל OCR של ווינדוס?
אתה יכול לשלוח לי קישור לאלה?
-
@הבל-הבלים כתב בבקשה | הוספת ספרים מ'שיטת הקדמונים':
בנוסף, ניסית את זה עם ABBYY? או עם כל OCR של ווינדוס?
אתה יכול לשלוח לי קישור לאלה?
-
עם ABBYY זה פשוט חבל על הזמן.
זה בכלל לא מתקרב לכלים שיש היום -
377d62aa-310a-4944-8233-53b8dde56af6-index.doc
הספרים שמודגשים באדום קיימים כבר, השאר צריך לבדוק היטב. -
מי שרוצה לבדוק על ספר האם הוא קיים כבר בקש"ק, יכול לבדוק בתוך קובץ הטקסט המצורף, הוא מכיל את כל הכותרות שיש בקש"ק.
כותרות נכונות לפי סדר האותיות.txt
שימו לב לבדוק עם כתיב מלא/חסר, ראשי תיבות, וכל כיו"ב.