פורום אוצריא

מ

@מענין-לשמוע כתב בהצעת ייעול | הוספת קישור ישיר לספר:

@מיכאלוש
ראיתי שביצעת את זה!!
נשמח שתסביר יותר מה זה אומר
גם אם התוכנה סגורה?

@מענין-לשמוע
זה אומר שנוספה פונקציה חדשה בתוכנה לפתיחה של כרטיסייה חדשה ישירות לספר או דף/מקטע מסוים בספר, כולל אפשרות להדגיש טקסט מסוים.
האפשרות החדשה עובדת גם כשהתוכנה פתוחה וגם כשסגורה.

מבנה הקישורים:

פתיחת ספר טקסט רגיל

otzaria://book/בראשית

פתיחת ספר רגיל במקטע מסוים

otzaria://book/בראשית?index=206

פתיחת ספר רגיל במקטע מסוים עם הדגשת בטקסט מסוים

otzaria://book/בראשית?index=352&text=ויהי בימי אמרפל

פתיחת ספר רגיל במקטע מסוים כולל הדגשת הטקסט בכל המקטע

otzaria://book/בראשית?index=3&text=true

פתיחת ספר PDF

otzaria://pdf/מנחות

פתיחת דף מסוים ב PDF

otzaria://pdf/מנחות?page=5

כמובן נוספה האפשרות להעתיק את הקישורים בתפריטים השונים

הדגמה.gif

@מענין-לשמוע כתב בהצעת ייעול | הוספת קישור ישיר לספר:

ואם תוכל לבנות את זה לגירסא ולהביא קישור להורדה...

לא יודע איך עושים את זה וגם לא רואה עניין, מקווה שישולב בגרסאות הרגילות של @י.פל

מ

@יום-חדש-מתחיל

הנה הטקסט המוקלד מתוך הדף, כתוב באותיות רגילות (במקום כתב רש"י המופיע במקור):

וילקט מערכת א יוסף

אחר תאות עוה"ז ושנים אמצעיות אין בהם כ"כ תאוות עוה"ז ושני הזקנה אין לו תאות כלל וטעם לזה לפי שג' שותפין באדם אב ואם והקב"ה לכן בשני נערות יש לו להאדם תאוות רבות מצד חלק האם שיש בו ובשנים אמצעיות אין בו תאוות כ"כ לפי שכבר כלה חלק האם שבו אבל עכ"ז יש לו תאות מצד חלק האב שבו אבל בימי הזקנה אין לו תאות כלל לפי שהוא חלק הקב"ה
(ס' ליקוטי יקרים):

לא אלול
דע דיום שבת קדש כלול כל יומי דחול ומניה מתברכין כל שית יומין עילאין כדאיתא בזוה"ק
פ' יתרו כמו כן זה החדש כולל כל חדשי השנה ומרומז בתורה שכל י"ב חדשים המה כנגד י"ב שבטי ישראל והחדש אלול הוא בסוד היסוד שהוא בסוד ברית קודש ויוסף בגין דנטר בריתו דרגא דיליה יסוד ע"ד נק' צדיק כידוע וכללו של דבר שהחדש
אלול הוא בסוד יוסף הצדיק ויוסף היה מכלכל את אחיו כמו כן כל החדשים מצפים שיזונו ויפרנסו ויהיה להם תקומה מזה החדש שהוא בסוד יוסף (שער המלך):

לב אלול
י"ג מידות הם והם כנגד י"ב חדשים מדת אל הוא
ניסן רחום כנגד אייר וחנון נגד סיון ארך נגד תמוז אפים נגד אב ורב חסד נגד אלול ואלול הוא החדש הששי ששה קנים מצד האחד וששה קנים מצד השני ואם אנו עושים תשובה בזה החדש הוא המחצה מן החדשים אמרו שפיר בית
הלל רב חסד שהוא אלול מטה כלפי חסד שהוא ניסן ר"ל מכריע כף מאזנים נוצר חסד שמצא מין את מינו מדת ורב חסד מטה

מ

@האדם-החושב רעיון טוב....

import requests
import json
import time
import re
from google.colab import files

# --- הגדרות ---
API_URL = "https://nakdan-u1-0.loadbalancer.dicta.org.il/api"
CHUNK_SIZE = 1500
LOG_FILE = "debug_log.txt"
JSON_FILE = "abbreviations_result.json"

# משתנים גלובליים
logs = []
all_potential_misses = set() # מאגר לכל המילים שלא פוענחו

def log(message):
    timestamp = time.strftime("%H:%M:%S")
    full_msg = f"[{timestamp}] {message}"
    print(full_msg)
    logs.append(full_msg)

def smart_chunking(text, max_size):
    """חלוקה חכמה לפי סופי שורות"""
    chunks = []
    current_chunk = []
    current_length = 0
    lines = text.split('\n')
    for line in lines:
        line_len = len(line) + 1
        if current_length + line_len > max_size:
            if current_chunk:
                chunks.append("\n".join(current_chunk))
                current_chunk = []
                current_length = 0
            if line_len > max_size:
                # טיפול בשורה ארוכה מאוד
                words = line.split(' ')
                temp_chunk = []
                temp_len = 0
                for word in words:
                    if temp_len + len(word) + 1 > max_size:
                        chunks.append(" ".join(temp_chunk))
                        temp_chunk = []
                        temp_len = 0
                    temp_chunk.append(word)
                    temp_len += len(word) + 1
                if temp_chunk:
                    current_chunk = temp_chunk
                    current_length = temp_len
            else:
                current_chunk.append(line)
                current_length += line_len
        else:
            current_chunk.append(line)
            current_length += line_len
    if current_chunk:
        chunks.append("\n".join(current_chunk))
    return chunks

def call_api(data_payload):
    """פונקציה גנרית לקריאה ל-API"""
    headers = {"Content-Type": "application/json;charset=UTF-8"}
    try:
        response = requests.post(API_URL, json=data_payload, headers=headers, timeout=45)
        if response.status_code == 200:
            return response.json()
    except:
        pass
    return None

def strip_prefixes(word):
    """
    מנסה להסיר אותיות שימוש (מש"ה וכל"ב) מתחילת המילה
    מחזיר את המילה הנקייה אם נשאר בה גרשיים, אחרת מחזיר None
    """
    # מסיר אותיות מ/ש/ה/ו/כ/ל/ב/ד מתחילת המילה, רק אם יש אחריהן עוד גרשיים
    # למשל: ב"המק -> המק | ו"יוסף -> יוסף
    clean = re.sub(r'^[משהוכלבד]+', '', word)
    
    # אם נשארנו עם מילה שיש בה גרשיים והיא לפחות 2 תווים
    if '"' in clean and len(clean) >= 2:
        return clean
    return word # אם אי אפשר לנקות, מחזיר את המקור

def retry_missed_words(missed_words_list, existing_results):
    """
    מנגנון הזדמנות שנייה: לוקח מילים שנכשלו, מנקה אותיות שימוש ושולח שוב
    """
    if not missed_words_list:
        return existing_results
    
    log(f"🔄 מתחיל סבב ב' (Retry) עבור {len(missed_words_list)} מילים שלא פוענחו...")
    
    # מיפוי בין המילה הנקייה למילה המקורית
    # דוגמה: {'המק': 'ב"המק'}
    clean_to_original = {}
    batch_text = []
    
    for word in missed_words_list:
        clean_word = strip_prefixes(word)
        if clean_word != word: # רק אם היה שינוי
            clean_to_original[clean_word] = word
            batch_text.append(clean_word)
        else:
            # מנסים לשלוח גם את המקור שוב, אולי כבודד יצליח
            batch_text.append(word)
            clean_to_original[word] = word

    # שולחים במנות של 500 מילים כדי לא להעמיס
    chunk_size = 500
    new_found_count = 0
    
    for i in range(0, len(batch_text), chunk_size):
        batch = batch_text[i:i+chunk_size]
        text_string = " ".join(batch) # שולחים כרשימת מילים
        
        payload = {
            "task": "abbrexp",
            "data": text_string,
            "useTokenization": True,
            "genre": "rabbinic"
        }
        
        data = call_api(payload)
        
        if data and 'data' in data:
            for item in data['data']:
                if 'abbreviation' in item and item['abbreviation']:
                    abbr = item['abbreviation']
                    found_clean_word = abbr.get('word')
                    options = abbr.get('options')
                    
                    if found_clean_word and options:
                        # אנחנו צריכים למצוא מה הייתה המילה המקורית (עם האותיות שימוש)
                        # ה-API מחזיר את המילה שהוא מצא (למשל "המק")
                        # אנחנו צריכים לשמור את התוצאה תחת המפתח המקורי "ב"המק"
                        
                        # חיפוש הפוך פשוט (יתכן פספוס קטן אם יש כפילויות, אבל זניח)
                        original_word = clean_to_original.get(found_clean_word)
                        
                        if original_word:
                            existing_results[original_word] = options
                            new_found_count += 1

        time.sleep(0.2)
        
    log(f"✅ סבב ב' הסתיים: הוצלו עוד {new_found_count} ראשי תיבות!")
    return existing_results

# --- גוף התוכנית ---

print("אנא בחר קובץ טקסט...")
uploaded = files.upload()
if uploaded:
    input_filename = next(iter(uploaded))
    log(f"הקובץ {input_filename} נטען.")

    with open(input_filename, 'r', encoding='utf-8') as f:
        full_text = f.read()

    chunks = smart_chunking(full_text, CHUNK_SIZE)
    log(f"מתחיל עיבוד ב-{len(chunks)} מקטעים...")

    final_results = {}
    
    # שלב 1: מעבר ראשי
    for i, chunk in enumerate(chunks):
        # זיהוי פוטנציאלי במקטע (מילים עם גרשיים)
        words_in_chunk = set(re.findall(r'\b[א-ת]+"[א-ת]+\b', chunk))
        
        payload = {
            "task": "abbrexp",
            "data": chunk,
            "useTokenization": True,
            "genre": "rabbinic"
        }
        
        data = call_api(payload)
        
        found_in_chunk = set()
        
        if data and 'data' in data:
            for item in data['data']:
                if 'abbreviation' in item and item['abbreviation']:
                    abbr = item['abbreviation']
                    word = abbr.get('word')
                    options = abbr.get('options')
                    if word and options:
                        final_results[word] = options
                        found_in_chunk.add(word)
        
        # חישוב מה התפספס במקטע הזה
        missed = words_in_chunk - found_in_chunk
        all_potential_misses.update(missed)
        
        print(f"\rעיבוד: {int((i+1)/len(chunks)*100)}% (נמצאו: {len(found_in_chunk)}, חשודים כפספוס: {len(missed)})", end="")
        time.sleep(0.1)

    print("\nסיימנו סבב ראשון.")
    
    # שלב 2: ניסיון הצלה
    # מסננים מילים שכבר נמצאו (למקרה שהן הופיעו במקטע אחר וכן זוהו)
    really_missed = [w for w in all_potential_misses if w not in final_results]
    
    if really_missed:
        final_results = retry_missed_words(really_missed, final_results)

    # שמירה
    log(f"סה\"כ ראשי תיבות מפוענחים: {len(final_results)}")
    
    with open(JSON_FILE, 'w', encoding='utf-8') as f:
        json.dump(final_results, f, ensure_ascii=False, indent=4)
        
    with open(LOG_FILE, 'w', encoding='utf-8') as f:
        f.write("\n".join(logs))

    files.download(JSON_FILE)
    files.download(LOG_FILE)

והנה התוצאה
ראשי תיבות.json
מקווה שיצרתי את ה JSON במבנה הנכון....

מ

@הבל-הבלים
אדרבה זה דבר מאוד נצרך גם אחרי הסוד שהתפרסם כאן

@הבל-הבלים כתב בלהורדה | עריכת ספרים לאוצריא:

נחמד מאוד, אבל אין לך בזה את כל הכלים האוטומטיים שאנשים עבדו קשה כדי להתאים אותם במדוייק לצרכים של אוצריא.

ברור שעדיף את הכלים שהותאמו בעיקר לאוצריא דא עקא שהם הותאמו בעיקר לספרים מסוימים (בעיקר לדיקטה וכדו') ולא תמיד מתאימים לספרים אחרים.

עכ"פ הAI הסכים בשמחה להכניס את הכלים שהותאמו במיוחד עבור אוצריא לתפריט אפשרויות מתקדמות מקווה שלא הרס משהוא בדרך....

@הבל-הבלים כתב בהצעת ייעול | שרשור בנושא השדרוגים העיצוביים של הרב הבל הבלים:

לא כ"כ ברור לי מה קרה לך שם. איך הגיע הנתיב של הקובץ למסך ספרייה?
שינית שם משהו? אצלי אין כמעט קבצים עם כ"כ הרבה מלל.

לא שינתי משהוא גרסא קצת ישנה אולי כבר סודר... יכול להיות גם שקשור לגודל מסך וכו'

@יום-חדש-מתחיל כתב בלהורדה | עריכת ספרים לאוצריא:

@מיכאלוש יש כבר משהו דומה למה שעשית, לא כ"כ משוכלל, אבל משהו בסיסי.

כמו ש@מענין-לשמוע כתב חבל שהוא לא מפורסם אולי כדאי להוסיף אותו באודות התוכנה מדריך לטיפול בספרי דיקטה או במדריך נפרד

@יום-חדש-מתחיל כתב בלהורדה | עריכת ספרים לאוצריא:

אגב, בקובץ ה HTML שלי מאוד נח לראות במהירות את כל הכותרות ברגע אחד.

ה AI הסכים להוסיף גם את זה...

otzaria_editor.html

https://mmichaelush.github.io/otzaria_editor/

מ

@י.-פל. כתב בבדיקה 3:

הוא מופיע בכל פתיחת שרשור בקטגוריות מסויימות, כדי לענות תשובות לשאלות משמשים. מקווים שישתפר בהדרגה.

רק הוא חושב שהוא הדובר של אוצר החכמה הוא לא שמע עדיין על אוצריא ...

מ

@דאנציג כתב בהצעת ייעול | הוספת קישור ישיר לספר:

ולא עולה כסף לפתוח אישוי (זה מעסיק את אותם מתכנתים שקוראים את זה כאן).

אוקיי

https://github.com/Sivan22/otzaria/issues/932

מ

כבר חשבתי שמחפשים משהוא יותר מצועצע

מ

@איש-שלו
אתה מערבב 2 דברים
יש תיקייה ששם אין הרבה טקסט
ויש ספר ששם יש הרבה טקסט של פרטים
אני ביקשתי בתיקייה שאין הרבה טקסט למרכז לאמצע
הוספתי שגם בספר שיש הרבה טקסט מרכוז לכאורה לא יזיק
כמובן שבתאוריה ניתן גם לעצב כל תיקייה כמו מדף ספרים וכל ספר כמו ספר פתוח וכו'
אבל זה כבר אני לא יודע אם אפשר בקלות בפלאטר
וגם יהיה דיון נרחב האם בכלל יש עניין או שעדיף לשמור על קו נקי כמו עכשיו
אני גם לא יודע איך זה יעבוד בגונים שונים ובמצב לילה

סתם דוגמאות להשראה

ChatGPT Image Jan 27, 2026, 05_49_19 PM.png

ChatGPT Image Jan 27, 2026, 05_54_14 PM.png

ChatGPT Image Jan 27, 2026, 06_15_02 PM.png

מ

@יאיר-דניאל
אם כבר יכול להיות פתרון יותר פשוט בלי צורך לנפח את קובץ ההתקנה
שבתהליך ההתקנה יבדוק אם כבר מותקן הרכיב המתאים
ואם לא יציג הודעה עם קישור להורדה

מ

@האדם-החושב
נראה לי זה השתבש מאז ששינו את הסאב דומיין של הפורום
מ forum.otzaria.org ל otzaria.org/forum או שינוי אחר שהיה בכתובת
יכול להיות ?

מ

https://otzaria.org/forum/post/6521

מ

@שמואל5
התאמתי את הספרים באמצעות סקריפט קטן
וכמובן אח"כ ערכתי עם תיקונים ידניים
שלחתי כבר ל @יום-חדש-מתחיל
בקיצור אפשר לסמן כנפתר

מ

עברתי על רוב מהרשימה ומחקתי כל מה שבטוח קיים

להלן רשימה שעדיין לא עברתי כמובן הרוב זה מחברי זמנינו או ספרים שלא אמורים להיכנס לאוצריא למשל העיתונאי של קובי לוי

ספרים_שחסרים_ברשימת_הספרים.xlsx

מ

@פלמנמוני כתב בבאג | התוכנה בגירסא החדשה איטית:

וגם הלחצן של הדף היומי במסך ספרייה

זה אני יודע

הקטע המעניין שהלחצן דף היומי בלוח שנה כן עובד

מ

@איש-שלו
איך בדיוק עם מספר טלפון של 6 ספרות

מ

@יום-חדש-מתחיל

נתחיל מהרשימה של כל התיקיות והקבצים שלהם בדרייב

רשימת קבצים רקורסיבית - ספרי קודש.xlsx

מ

@פלמנמוני
ובכן ...
מהירות פתיחת קבצי PDF השתפרה
כמו כן מהירות הגלילה השתפרה
המעבר בין מהדורת הטקסט לPDF והפוך עובד (רק הטקסט לא מוצג )
אגב זה די יפה שרואים את הקובץ גם בתצוגה מקדימה במסך ספרייה חבל שלחיצה כפולה לא פותחת אותו

חלק מהבאגים שקשורים לתקיעת הPDF לא הסתדרו...
הקובץ נפתח תמיד בעמוד הראשון ולפעמים גם כשאני אוחז בדף מסוים ועובד בין הכרטיסיות הוא יכול לקפוץ שוב לדף הראשון
מרגע של שגיאה או תקיעה כלשהיא בהצגת הPDF התוכנה נשארת לעבוד ברקע גם בסגירתה, כמו קודם

אגב עכשיו פתיחת הדף היומי לא עובד לא ממסך ספרייה ולא מלוח שנה
ממסך לוח שנה לפעמים מופיעה השגיאה לא נמצא
לענ"ד קשור לפתיחת התוכנה בדף מסוים למרות שכותב לא נמצא...

פתיחת דף היומי ממסך ספרייה לא נפתח אבל התוכנה מאחורי הקלעים מנסה לפתוח אותו וזה גם גורם לתקיעה.

יש לציין שבהחלט יש התקדמות בגרסא הזאת שהרבה פחות נתקע, וגם לא נתקע כבר ברגע הראשון...

מ

@asz כתב בהצעות לשיפור המראה של אוצריא:

מסגרת החלון-החלק השחור, לא ברור מה הקשר לתוכנה

הצבע השחור קשור לערכת הנושא במחשב לא לתוכנה

צילום מסך 2025-12-27 214313.png

מ

@הבל-הבלים כתב בלהורדה | עריכת ספרים לאוצריא:

@אהרן אני לא רוצה לבאס אותך, אבל כבר יש תוכנה כזו, ויש בה כל מה שצריך, מכל הסוגים.
https://github.com/Otzaria/otzaria-library/releases/tag/עריכה

סוריי אבל ממש אין בה את כל מה שצריך בשביל לערוך ספרים לאוצריא יש בה כמה כלים נחמדים ואולי גם בסיסיים להרצה על כל הקובץ אבל העיקר חסר בה,
אין אפשרות לערוך בתוכנה עצמה בקלות קטע מסויים או טקסט מסויים רק להריץ רשימת פקודות חמודות ולראות איך הקובץ אמור להיראות.
זה מאוד חסר היום עבדתי על ספר אחד מהקובץ קדמונים והייתי צריך לתקן שגיאות מ OCR וזה היה סיוט
עכשיו בכמה דקות יצרתי עם ה AI משהוא חמוד שכמובן חייב עוד שיפור אבל כבר נותן מענה חלקי.

וגם יכול להיות גם אונליין וגם אופליין

אני באמצע עכשיו לשדרג את זה הלאה...

otzaria-editor.html

מ

@י.-פל.

https://otzaria.org/forum/post/923

https://otzaria.org/forum/post/927

פורום אוצריא

מיכאלוש

פוסטים