|
|
1 hafta önce | |
|---|---|---|
| .vscode | 2 hafta önce | |
| Finetunning | 1 hafta önce | |
| Traduction | 1 hafta önce | |
| .gitignore | 2 hafta önce | |
| README.md | 1 hafta önce | |
| requirements.txt | 1 hafta önce | |
| run.bat | 1 hafta önce | |
Ce projet permet de traduire un document PDF page par page en utilisant un modèle LLM local (Ollama) optimisé pour la traduction.
Cloner ou télécharger le projet
cd chemin/vers/votre/projet
git pull https://git.alex-design.fr/Alex/python.traduction
Installer les dépendances Python
pip install -r requirements.txt
Puis faire :
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Traduction du projet avec le nom configuré dans main.py (par défaut : TaniaBorecMemoir(Ukr).pdf)bash
ollama serve
Lancer le script de traduction
python main.py
Le programme va :
Le résultat final sera généré dans un fichier PDF nommé [nom_original](FR).pdf
TaniaBorecMemoir(Ukr)(FR).pdfLe PDF généré contient :
Vous pouvez modifier les paramètres suivants dans main.py :
PDF_PATH : Chemin du fichier PDF à traduireOLLAMA_MODEL : Nom du modèle Ollama à utiliserOLLAMA_URL : URL du serveur Ollama (par défaut : http://localhost:11434/api/generate)OUTPUT_PDF_PATH : Chemin et nom du fichier PDF de sortie (généré autoamtiquement)Le finne-tunning permet d’avoir une meilleur traduction. C’est un processus long en temps de calcul, mais permet une traduction plus précise.
Le principe est le suivant :
1️⃣ Dataset d’entraînement (pairs.json)
↓
2️⃣ Fine-tuning LoRA (finetuning.py)
↓
3️⃣ Validation / Évaluation (validation.py)
↓
4️⃣ Merge LoRA + modèle de base (mergeLora.py)
↓
5️⃣ Conversion en GGUF
↓
6️⃣ Ollama (inférence finale)
e script tests plusieurs prompt et renvoie celui avec le meilleur score BLEU.
Il faut ensuite copier ce prompt dans le fichier modelFile.