3 changed files with 46 additions and 103 deletions
--- a/26
+++ b/26
@ -1,16 +1,14 @@
-FROM qwen2.5:14b
+FROM zongwei/gemma3-translator:4b
-PARAMETER	temperature    0.2
+PARAMETER	temperature    0.9
-PARAMETER num_ctx 8192
+PARAMETER	num_ctx	131072
 SYSTEM """
-Tu es un traducteur spécialisé dans les mémoires ukrainiennes des années 1910.
+Tu es un traducteur professionnel spécialisé dans la traduction de texte ukrainien en français.
- Utilise le glossaire fourni pour les noms de lieux et termes historiques.
+Tu est spécialisé dans la rédaction des textes auto-biographiques et historiques et parles un français impécable.
- Garde le style narratif et les tournures orales de l'auteur.
+Tu dois toujours répondre en français et uniquement dans cette langue.
-Règles strictes :
+Tu prends soins des congugaisons et de la tournure de phases.
-1. **Conserve tous les noms de lieux** dans leur forme originale (ex. : Львів → Lviv, mais ajoute une note si nécessaire : "[Lemberg en 1910]").
+N'ajoutes aucun texte sous quelle forme que ce soit avant ou après le texte traduit. Ne réponds qu'avec le texte traduit. 
-2. **Respecte le style narratif** : garde les tournures orales et les expressions propres à l’auteur.
+N'inclus jamais la phrase "Voici le texte traduit" dans la réponse.
-3. **Pour les termes historiques** (ex. : "powiat"), utilise le terme français standard ou ajoute une note explicative.
+Traduis avec précision et naturel, en respectant l'intonation originale utilisée par l'auteur du texte.
-4. **Ne traduis pas** les mots en russe/allemand/polonais intégrés au texte (ex. : citations, noms officiels).
+Tu ne dois pas interpréter les pensées ou les réflexions de l'auteur, la traduciton doit restée fidèle à la pensée de l'auteur.
-5. **Structure** : Garde les sauts de ligne et la mise en page originale.
+Le texte que tu traduis est un texte historique, tu ne dois pas le changer.
 6. **Notes du traducteur** : Ajoute entre crochets [ ] les explications contextuelles (ex. : "[Note : ville alors sous domination autrichienne]").
 """
--- a/main.py
+++ b/main.py
@ -3,26 +3,23 @@ import requests
 import json
 from reportlab.lib.pagesizes import letter
 from reportlab.lib.units import inch
-from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Flowable
+from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
 from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
 from reportlab.lib.enums import TA_JUSTIFY
 from reportlab.pdfbase import pdfmetrics
 from reportlab.pdfbase.ttfonts import TTFont
 import os
 from datetime import datetime
 # Configuration
 DEBUG = True
 PDF_PATH = "TaniaBorecMemoir(Ukr).pdf"
 OLLAMA_MODEL = "traductionUkrainienVersFrancais:latest"
 OLLAMA_URL = "http://localhost:11434/api/generate"
 TARGET_LANGUAGE = "français"
 CHECKPOINT_FILE = "checkpoint.json"
 TEMP_OUTPUT_TXT = "output_temp.txt"
-FINAL_OUTPUT_PDF = PDF_PATH.replace(".pdf",f"({TARGET_LANGUAGE.upper()[:2]})_V6.pdf")
+FINAL_OUTPUT_PDF = PDF_PATH.replace(".pdf",f" ({TARGET_LANGUAGE.upper()[:2]})_V2.pdf")
-FINAL_OUTPUT_TXT = PDF_PATH.replace(".pdf",f"({TARGET_LANGUAGE.upper()[:2]})_V6.txt")
+FINAL_OUTPUT_TXT = PDF_PATH.replace(".pdf",f" ({TARGET_LANGUAGE.upper()[:2]})_V2.txt")
 DEBUG = True
 def extract_parameters_from_template(template_str):
    """Extrait les paramètres du modèle à partir du template."""
@ -147,8 +144,8 @@ def display_llm_info():
        return "Informations du modèle non disponibles"
 def register_unicode_font():
-    """Enregistre une police TrueType qui supporte le cyrillique."""
+    """Enregistre une police TrueType qui supporte le cyrilique."""
-    # Recherche une police système qui supporte le cyrillique
+    # Recherche une police système qui supporte le cyrilique
    font_paths = [
        r"C:\Windows\Fonts\DejaVuSans.ttf",
        r"C:\Windows\Fonts\Calibri.ttf",
@ -174,15 +171,10 @@ def load_checkpoint():
            return json.load(f)
    return {"last_processed_index": -1, "results": {}}
 # Sauvegarde le checkpoint
 # Sauvegarde le checkpoint
 def save_checkpoint(last_index, results):
    # Trier les clés du dictionnaire results
    sorted_results = {key: results[key] for key in sorted(results.keys(), key=int)}
    with open(CHECKPOINT_FILE, "w") as f:
-        # Utiliser un espace d'indentation de 4 espaces pour rendre le JSON plus lisible
+        json.dump({"last_processed_index": last_index, "results": results}, f)
        json.dump({"last_processed_index": last_index, "results": sorted_results}, f, indent=4)
 # Sauvegarde les résultats temporaires dans un fichier TXT
 def save_temp_results(results):
@ -219,13 +211,16 @@ def send_to_ollama(text, target_lang=TARGET_LANGUAGE, model=OLLAMA_MODEL):
    else:
        raise Exception(f"Erreur Ollama: {response.text}")
-# Création du PDF final avec numéros de chapitres dans la marge
+# Création du PDF final (inchangée)
 def create_pdf_from_results(results, output_path):
-    """Crée un PDF à partir des résultats de traduction, avec des notes dans la marge et un numéro de page."""
+    """Crée un PDF à partir des résultats de traduction."""
    doc = SimpleDocTemplate(output_path, pagesize=letter, topMargin=inch, bottomMargin=inch)
    story = []
    # Enregistre une police qui supporte le cyrilique
    font_name = register_unicode_font()
-    # Styles personnalisés
+    # Style personnalisé
    styles = getSampleStyleSheet()
    title_style = ParagraphStyle(
        'CustomTitle',
@ -256,34 +251,17 @@ def create_pdf_from_results(results, output_path):
        fontName=font_name
    )
    note_style = ParagraphStyle(
        'CustomBody',
        parent=styles['BodyText'],
        fontSize=8,
        alignment=TA_JUSTIFY,
        spaceAfter=0,
        fontName=font_name
    )
    # Création du document avec les callbacks pour les notes et le numéro de page
    doc = SimpleDocTemplate(
        output_path,
        pagesize=letter,
        topMargin=inch,
        bottomMargin=inch,
    )
    # Titre avec la langue cible
    story.append(Paragraph(f"Traduction - Ukrainien vers {TARGET_LANGUAGE.capitalize()}", title_style))
    story.append(Paragraph(f"Document : {PDF_PATH}", title_style))
    story.append(Spacer(1, 0.2*inch))
    # Contenu
-    for paragraph_num, translation in results.items():
+    for page_num, translation in results.items():
        # Préserver la mise en page en convertissant les sauts de ligne
        formatted_text = translation.replace("\n", "<br/>")
        if DEBUG:
            # Ajoute le paragraphe avec sa note
            story.append(Paragraph(paragraph_num, note_style))
        story.append(Paragraph(formatted_text, body_style))
        # story.append(Spacer(1, 0.1*inch))
    # Infos sur le LLM
    story.append(Spacer(1, 0.2*inch))
@ -293,7 +271,6 @@ def create_pdf_from_results(results, output_path):
    doc.build(story)
    print(f"PDF généré avec succès : {output_path}")
 def create_txt_from_results(results, output_path):
    """Crée un fichier TXT à partir des résultats de traduction."""
    OUTPUT_TXT_PATH = output_path.replace(".pdf", f".txt")  # Chemin du fichier TXT de sortie
@ -304,10 +281,7 @@ def create_txt_from_results(results, output_path):
        txt_file.write(title_text + "\n\n")
        # Contenu
-        for paragraph_num, translation in results.items():
+        for page_num, translation in results.items():
            # Ajoute les numéro de paragraphe et chapitre
            if(DEBUG): txt_file.write(f"{paragraph_num}\n")
            # Préserver la mise en page en convertissant les sauts de ligne
            txt_file.write(translation + "\n\n")
@ -317,46 +291,17 @@ def create_txt_from_results(results, output_path):
 # Fonction principale
 def main():
    # Charge le checkpoint
    checkpoint = load_checkpoint()
    last_index = checkpoint["last_processed_index"]
    results = checkpoint["results"]
    # Extraction des paragraphes
    pages = extract_text_from_pdf(PDF_PATH)
    paragraphs = split_pages_in_paragraphs(pages)
-    # Liste de tous les indices de batches attendus (par pas de batch_size)
+    # Traitement des paragraphes
-    batch_size = 5
+    batch_size = 3
    expected_batch_indices = list(range(0, len(paragraphs), batch_size))
    # Liste des indices de batches déjà présents dans results
    present_batch_indices = set()
    for key in results.keys():
        batch_start = int(int(key) // batch_size * batch_size)  # Arrondit à l'indice de début de batch
        present_batch_indices.add(batch_start)
    # Trouve les batches manquants
    missing_batches = [i for i in expected_batch_indices if i not in present_batch_indices and i <= last_index]
    # Affichage des batches manquants (pour débogage)
    print(f"Batches manquants détectés : {missing_batches}")
    # Traduction des paragraphes manquants
    for i in missing_batches:
        batch = paragraphs[i:i + batch_size]
        paragraph_cumul = "\n".join(batch)
        print(f"{15 * '-'} Traduction des paragraphes manquants {i+1} à {min(i + batch_size, len(paragraphs))} / {len(paragraphs)}")
        try:
            result = send_to_ollama(paragraph_cumul)
            print(f"{result}")
            results[str(i)] = result
            save_checkpoint(len(paragraphs), results)  # Met à jour le dernier indice du batch
            save_temp_results(results)
        except Exception as e:
            print(f"Erreur lors de la traduction du paragraphe {i}: {e}")
    # Traitement des paragraphes suivants
    for i in range(last_index + 1, len(paragraphs), batch_size):
        batch = paragraphs[i:i + batch_size]
        paragraph_cumul = "\n".join(batch)
@ -366,18 +311,18 @@ def main():
        try:
            result = send_to_ollama(paragraph_cumul)
            print(f"{result}")
-            results[str(i)] = result
+            results[i] = result
-            save_checkpoint(i + batch_size - 1, results)
+            save_checkpoint(i, results)  # Sauvegarde le checkpoint
-            save_temp_results(results)
+            save_temp_results(results)   # Sauvegarde les résultats temporaires
        except Exception as e:
            print(f"Erreur : {e}")
            continue
    # Génération des fichiers finaux
    save_temp_results(results)
    create_pdf_from_results(results, FINAL_OUTPUT_PDF)
    create_txt_from_results(results, FINAL_OUTPUT_TXT)
    print("Traduction terminée !")
 if __name__ == "__main__":
    main()
--- a/run.bat
+++ b/run.bat
@ -22,7 +22,7 @@ ollama create traductionUkrainienVersFrancais -f .\Modelfile
 :: 1. Vérifie si le processus ollama.exe est en cours d'exécution
 tasklist | find "ollama.exe" >nul
 if %ERRORLEVEL% equ 0 (
-    echo [OK] Le processus Ollama est en cours d'execution.
+    echo [OK] Le processus Ollama est en cours d'exécution.
 ) else (
    echo [ERREUR] Ollama n'est pas lancé.
    pause