להורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא
-
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
-
במהלך הלילה המחשב שלי עבד קצת בשבילכם, ואני חושב שהתוצאה די טובה, אם כי לא מושלמת.
אני מעלה כעת את הש"ס עם OCR בעברית לדרייב [לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
כשיסיים - אעדכן.
בנוסף, שלחתי מייל לוגשל שיסכימו להכניס את זה באופן רשמי, אני מחכה לתגובה.@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם -
אם שכבת הטקסט כבר קיימת ב-PDF, הבעיה היא לא “המרת PDF”, אלא חילוץ הטקסט עם קידוד נכון והמרתו ל-UTF-8.
יש כמה דרכים מקובלות:
✅ דרך פשוטה (pdftotext + iconv)
ברוב המקרים זה מספיק:
- חלץ טקסט מה-PDF:
pdftotext input.pdf output.txt- המר מ-Windows-1255 ל-UTF-8:
iconv -f windows-1255 -t utf-8 output.txt > output_utf8.txtאם הטקסט יוצא ג’יבריש בשלב הראשון, אפשר לנסות להזרים ישר:
pdftotext input.pdf - | iconv -f windows-1255 -t utf-8 > output_utf8.txt
✅ דרך מדויקת יותר (Python)
טוב כשצריך שליטה מלאה:
from pdfminer.high_level import extract_text text = extract_text("input.pdf") # אם זה כבר מחרוזת לא תקינה, לפעמים צריך: text_bytes = text.encode('windows-1255', errors='ignore') fixed = text_bytes.decode('windows-1255') with open("output_utf8.txt", "w", encoding="utf-8") as f: f.write(fixed)
✅ אם הקידוד משובש בתוך ה-PDF עצמו
לפעמים ה-PDF לא באמת שומר “Windows-1255”, אלא משתמש ב-font encoding פנימי. במצב כזה:
- נסה
pdftotext -raw - או
pdftotext -enc UTF-8 - או להשתמש ב-OCR (כמו Tesseract) אם שכבת הטקסט פגומה.
💡 טיפ חשוב
בדוק קודם מה הקידוד האמיתי של הקובץ שחולץ:
file output.txtאו:
uchardet output.txtלפעמים זה בכלל ISO-8859-8 (עברית ישנה) ולא 1255.
אם תרצה, אפשר לתת פתרון מדויק יותר לפי:
- מערכת הפעלה
- כלי העבודה שלך (CLI / Python / תוכנה גרפית)
- דוגמה לפלט משובש
מה אתה משתמש כרגע? 😊
@י.-פל. אין לי פייתון, ולא מתחשק לי להתקין.
אתה יכול לנסות להריץ את זה על חגיגה שהביאו למעלה? -
@הבל-הבלים כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
[לא יודע איך להעלות לגיטהאב @יאיר-דניאל ].
א - יש לך כאן בספויילר הסבר
ב - אם אין לך כח תעלה את זה לדרייב, אוני אוריד משם@יאיר-דניאל
כמובן שאני יודע להעלות לגיטהאב.
לא הייתי מספיק ברור, בגלל הגודל, אני לא יודע, וגם אין לי כוח לבדוק.
למעשה, עשיתי גם אופטימיזציה לקבצים, והם שוקלים - 1.6, אבל האיכות תמונה שלהם גרועה מאוד, יותר מהקבצים שיש היום לאוצריא, אבל בזום 100% זה בסדר, אני ינסה להעלות את שתיהם אם אני יצליח. -
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
-
@צבי-דורש-ציון כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
אגב לכל מי שחולם על ש"ס של עוז והדר, אם עוז והדר מאשרים את השימוש בש"ס שלהם אני מוכן להקריא בעל פה לכל מחשב כל מקום מבוקש בש"ס כאילו אני נמצא בתוך התוכנה...
ולמי שלא הבין, זה לא יקרה!
או יותר נכון יותר מהר שאני יצליח לעשות את הנ"ל בצורה קוונטית...
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
-
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
-
סיכום (אקראי) לדרישות ההתנדבות למאגר:
cor לש"ס וגשל
תיקון כותרות הש"ס הנ"ל- לבנתיים קיימת תוכנה שתעשה זאת. ראה כאן
(לברר על ש"ס אחר 'רישמי' לאוצריא)
התאמת 102 ספרים לאוצריא
המרת קובץ איגרות חזו"א לטקסט -
בעבר היתה יוזמה ליצירת צורת הדף כHTML, שזה בעצם טקסט פשוט שמעוצב בצורת הדף, זה קל (משהו כמו אלפית מPDF), ומהיר, אבל נראה לי דהם לא התקדמו בזה.
@האדם-החושב -
בעבר היתה יוזמה ליצירת צורת הדף כHTML, שזה בעצם טקסט פשוט שמעוצב בצורת הדף, זה קל (משהו כמו אלפית מPDF), ומהיר, אבל נראה לי דהם לא התקדמו בזה.
@האדם-החושב -
@meir כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
@י.-פל. זה היה של מגיקוד (הבעה"ב של נטפרי) אבל זה לא הושלם והאתר כבר לא קיים
אתה יכול לפנות אליו?
-
סיכום (אקראי) לדרישות ההתנדבות למאגר:
cor לש"ס וגשל
תיקון כותרות הש"ס הנ"ל- לבנתיים קיימת תוכנה שתעשה זאת. ראה כאן
(לברר על ש"ס אחר 'רישמי' לאוצריא)
התאמת 102 ספרים לאוצריא
המרת קובץ איגרות חזו"א לטקסט@חנניה כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
תיקון כותרות הש"ס הנ"ל
כבר יש תוכנה אוטומטית
https://otzaria.org/forum/post/6010 -
@abc123 אם אין צורה מוגדרת, אז מה בכלל העניין בהצגה בצורה כזו?
-
@יהודי-צעיר כתב בלהורדה | חדש! מאגר גיטאב - לספרים מותאמים לאוצריא:
דוקא היה איתם מו"מ, בינתיים לא אפרט בנידון
בינתיים יש את כאן שס עוז והדר לא לשימוש מסחרי
פוסט זה נמחק! -
@abc123 אם אין צורה מוגדרת, אז מה בכלל העניין בהצגה בצורה כזו?
@יום-חדש-מתחיל הרבה יותר נוח ללמוד ככה
גם בספרים שאין עליהם מפרשים יותר נוח לקרוא שורות שמחולקות לשתי טורים
ובגמרא או בכל ספרי היסוד האחרים מאוד נוח לראות את הנו״כ על הדף ישירות. מה שיש היום זה שדרוג מטורף אבל אני חושב חד משמעית שעדיף דף שלא זז אלא מקובע כמו pdf -
פוסט זה נמחק!
@יהודי-צעיר אם אתה בקטע של pdf יש לי מאגר של כל ספרי היסוד בהוצאות הכי טובות אבל אתה תצטרך להגדיל את נפח האחסון שלך בדרייב
