להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא

הבל הבלים

@דורש-טוב כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

זה כמו של היברובוקס

יש אותו דבר גם בהיברובוקס אבל שם הם הטביעו ע"ז סימן מים של זכויות יוצרים.

צבי דורש ציון

אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...

ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...

צדיק וטוב לו

ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.

מיכאלוש

@יהודי-צעיר
כמדומני שכבר שנים מאורות הדף היומי משתמשים בש"ס וילנא של מסורת הש"ס רק ללא ההערות שמסורת הש"ס עבדו אליהם
פנית לאחד משניהם ?

הבל הבלים

במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.

דורש טוב

@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב?

הבל הבלים

@דורש-טוב
לא, קודם הדפסתי את זה כתמונה, ואח"כ עשיתי OCR.
אבל כרגע הרשת שלי לא עומדת בזה, אני מקוה בערב להעלות את זה.

דורש טוב

@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15

הבל הבלים

@דורש-טוב
כן, זה שוקל 4.6 ג'יגה, וגם דחיסה לא עוזרת...

חנניה

@הבל-הבלים וכמה שוקל מה שיש היום באוצריא?

צדיק וטוב לו

כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.

לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100%

חנניה

@צדיק-וטוב-לו אולי כבוד הרב ג'ימני?

י. פל.

אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.

יש כמה דרכים מקובלות:

✅ דרך פשוטה (pdftotext + iconv)

ברוב המקרים זה מספיק:

חלץ טקסט מה-PDF:

pdftotext input.pdf output.txt

המר מ-Windows-1255 ל-UTF-8:

iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txt

אם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:

pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt

✅ דרך מדויקת יותר (Python)

טוב כשצריך שליטה מלאה:

from pdfminer.high_level import extract_text

text = extract_text("input.pdf")

# אם זה כבר מחרוזת לא תקינה, לפעמים צריך:
text_bytes = text.encode('windows-1255', errors='ignore')
fixed = text_bytes.decode('windows-1255')

with open("output_utf8.txt", "w", encoding="utf-8") as f:
    f.write(fixed)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:

נסה pdftotext -raw
או pdftotext -enc UTF-8
או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.

💡 טיפ חשוב

בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:

file output.txt

או:

uchardet output.txt

לפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.

אם תרצה, אפשר לתת פתרון מדויק יותר לפי:

מערכת הפעלה
כלי העבודה שלך (CLI / Python / תוכנה גרפית)
דוגמה לפלט משובש

מה אתה משתמש כרגע? 😊

יאיר דניאל

@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].

א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם

צדיק וטוב לו

@י.-פל. אין לי פייתון, ולא מתחשק לי להתקין.
אתה יכול לנסות להריץ את זה על חגיגה שהביאו למעלה?

הבל הבלים

@יאיר-דניאל
כמובן שאני יודע להעלות לגיטהאב.
לא הייתי מספיק ברור, בגלל הגודל, אני לא יודע, וגם אין לי כוח לבדוק.
למעשה, עשיתי גם אופטימיזציה לקבצים, והם שוקלים - 1.6, אבל האיכות תמונה שלהם גרועה מאוד, יותר מהקבצים שיש היום לאוצריא, אבל בזום 100% זה בסדר, אני ינסה להעלות את שתיהם אם אני יצליח.

יהודי צעיר

@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...

ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...

דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון

מיכאלוש

@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:

דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון

בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי

הבל הבלים

@מיכאלוש
אולי תשאל אותו? אוצריא זה לא שימוש מסחרי!

חנניה

סיכום (אקראי) לדרישות ההתנדבות למאגר:
cor לש"ס וגשל
תיקון כותרות הש"ס הנ"ל- לבנתיים קיימת תוכנה שתעשה זאת. ראה כאן
(לברר על ש"ס אחר 'רישמי' לאוצריא)
התאמת 102 ספרים לאוצריא
המרת קובץ איגרות חזו"א לטקסט

פורום אוצריא

להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא

✅ דרך פשוטה (pdftotext + iconv)

✅ דרך מדויקת יותר (Python)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

💡 טיפ חשוב

✅ דרך פשוטה (pdftotext + iconv)

✅ דרך מדויקת יותר (Python)

✅ אם הקידוד משובש בתוך ה-PDF עצמו

💡 טיפ חשוב