להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא
-
@צדיק-וטוב-לו העלתי פה מסכת חגיגה
@צדיק-וטוב-לו כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
מה מקור הש"ס? היברובוקס? מהרשת?
אין לי מושג @יאיר-דניאל
זה כמו של היברובוקס ואוצריא אבל זה נראה קובץ מקור@דורש-טוב כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
זה כמו של היברובוקס
יש אותו דבר גם בהיברובוקס אבל שם הם הטביעו ע"ז סימן מים של זכויות יוצרים.
-
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
-
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל. -
עדיף לחפש תלמוד בבלי חדש לאוצריא
אני ניסיתי קצת, וללא הצלחה בינתיים
צריך לפנות למהדורות ספרים
(עוז והדר פניתי)
המאור
בארות
טלמן
שס ארץ ישראל (בלום)
שס יביע אומר
ועוד...@יהודי-צעיר
כמדומני שכבר שנים מאורות הדף היומי משתמשים בש"ס וילנא של מסורת הש"ס רק ללא ההערות שמסורת הש"ס עבדו אליהם
פנית לאחד משניהם ? -
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה. -
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב? -
@הבל-הבלים אז בעצם זה נהיה 2 שכבות טקסט אחת מעל השניה, הראשונה מג'וברשת והשניה OCR
ובהעתקה זה לא מתערבב? -
@דורש-טוב
לא, קודם הדפסתי את זה כתמונה, ואח"כ עשיתי OCR.
אבל כרגע הרשת שלי לא עומדת בזה, אני מקוה בערב להעלות את זה.@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15
-
@הבל-הבלים והמשקל סביר? כי כשניסיתי לעשות את זה זה הכפיל פי 15
-
@הבל-הבלים וכמה שוקל מה שיש היום באוצריא?
-
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100% -
כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
ובכן.
זה בעיה בקידוד.
זה מקודד בקידוד ישן של Windows-1255
כאשר צריך להמיר אותו ל UTF-8
בוורד זה קלי קלות
השאלה איך עושים את זה ל PDF, בלי שיקרה דבר לשכבת התמונה מעל.לאף אחד אין פתרון לבעיה הזו?
זה ישמור על טקסט מדויק 100%@צדיק-וטוב-לו אולי כבוד הרב ג'ימני?
-
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
-
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם -
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
@י.-פל. אין לי פייתון, ולא מתחשק לי להתקין.
אתה יכול לנסות להריץ את זה על חגיגה שהביאו למעלה? -
@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם@יאיר-דניאל
כמובן שאני יודע להעלות לגיטהאב.
לא הייתי מספיק ברור, בגלל הגודל, אני לא יודע, וגם אין לי כוח לבדוק.
למעשה, עשיתי גם אופטימיזציה לקבצים, והם שוקלים - 1.6, אבל האיכות תמונה שלהם גרועה מאוד, יותר מהקבצים שיש היום לאוצריא, אבל בזום 100% זה בסדר, אני ינסה להעלות את שתיהם אם אני יצליח. -
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
-
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
-
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי