|
|
1 viikko sitten | |
|---|---|---|
| .vscode | 2 viikkoa sitten | |
| Finetunning | 1 viikko sitten | |
| Traduction | 1 viikko sitten | |
| .gitignore | 2 viikkoa sitten | |
| README.md | 1 viikko sitten | |
| requirements.txt | 1 viikko sitten | |
| run.bat | 1 viikko sitten | |
Ce projet permet de traduire un document PDF page par page en utilisant un modèle LLM local (Ollama) optimisé pour la traduction.
Cloner ou télécharger le projet
cd chemin/vers/votre/projet
git pull https://git.alex-design.fr/Alex/python.traduction
Installer les dépendances Python
pip install -r requirements.txt
Puis faire :
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Traduction du projet avec le nom configuré dans main.py (par défaut : TaniaBorecMemoir(Ukr).pdf)bash
ollama serve
Lancer le script de traduction
python main.py
Le programme va :
Le résultat final sera généré dans un fichier PDF nommé [nom_original](FR).pdf
TaniaBorecMemoir(Ukr)(FR).pdfLe PDF généré contient :
Vous pouvez modifier les paramètres suivants dans main.py :
PDF_PATH : Chemin du fichier PDF à traduireOLLAMA_MODEL : Nom du modèle Ollama à utiliserOLLAMA_URL : URL du serveur Ollama (par défaut : http://localhost:11434/api/generate)OUTPUT_PDF_PATH : Chemin et nom du fichier PDF de sortie (généré autoamtiquement)Le finne-tunning permet d’avoir une meilleur traduction. C’est un processus long en temps de calcul, mais permet une traduction plus précise.
Le principe est le suivant :
1️⃣ Dataset d’entraînement (pairs.json)
↓
2️⃣ Fine-tuning LoRA (finetuning.py)
↓
3️⃣ Validation / Évaluation (validation.py)
↓
4️⃣ Merge LoRA + modèle de base (mergeLora.py)
↓
5️⃣ Conversion en GGUF ()
↓
6️⃣ Ollama (inférence finale)
Executer le script python validation.py
Le script tests plusieurs prompts et renvoie celui avec le meilleur score BLEU.
Il faut ensuite copier ce prompt dans le fichier ModelFile.
Executer le script python mergeLora.py