| 1234567891011121314151617181920212223242526272829303132333435 |
- import json
- from collections import defaultdict
-
- # Chemin vers ton fichier d'entrée et de sortie
- input_file = "Paires-de-phrases-en-ukrainien-francais-2026-01-06.tsv" # Remplace par ton chemin
- output_file = "paires.json" # Fichier de sortie
-
- # Dictionnaire pour stocker les paires uniques (clé = phrase ukrainienne, valeur = liste de traductions)
- unique_pairs = defaultdict(list)
-
- # Lire le fichier d'entrée
- with open(input_file, "r", encoding="utf-8") as f:
- for line in f:
- # Diviser la ligne en colonnes (séparateur = tabulation)
- parts = line.strip().split("\t")
- if len(parts) >= 3:
- uk_text = parts[1] # Texte ukrainien
- fr_text = parts[3] # Traduction française
- # Ajouter la paire au dictionnaire (évite les doublons)
- if fr_text not in unique_pairs[uk_text]:
- unique_pairs[uk_text].append(fr_text)
-
- # Écrire le fichier JSONL de sortie
- with open(output_file, "w", encoding="utf-8") as f_out:
- for uk_text, fr_translations in unique_pairs.items():
- # Prendre la première traduction (ou toutes si tu préfères)
- for fr_text in fr_translations:
- # Créer une entrée JSONL
- entry = {
- "text": uk_text,
- "translation": fr_text
- }
- f_out.write(json.dumps(entry, ensure_ascii=False) + "\n")
-
- print(f"Fichier JSONL généré : {output_file}")
|