diff --git a/main.py b/main.py index 0ebfa5b..795947d 100644 --- a/main.py +++ b/main.py @@ -129,7 +129,7 @@ def extract_text_from_pdf(pdf_path): text_by_page.append(text) return text_by_page -def merge_paragraphs_across_pages(pages_text): +def split_pages_in_paragraphs(pages_text): """ Divise le texte en paragraphes en détectant un point suivi d'un saut de ligne ou d'un retour à la ligne. Conserve les sauts de ligne à l'intérieur des paragraphes. @@ -139,11 +139,15 @@ def merge_paragraphs_across_pages(pages_text): # Concatène tout le texte full_text = "\n".join(pages_text) - # Divise le texte en paragraphes : un point suivi d'un saut de ligne ou d'un retour à la ligne + # Remplace les sauts de ligne à l'intérieur des paragraphes par des espaces + # (pour éviter les sauts de ligne intempestifs dans un même paragraphe) + full_text = re.sub(r'(?") story.append(Paragraph(formatted_text, body_style)) - story.append(Spacer(1, 0.1*inch)) + # story.append(Spacer(1, 0.1*inch)) # Infos sur le LLM story.append(Spacer(1, 0.2*inch)) @@ -253,7 +257,7 @@ def main(): print(f"Nombre de pages extraites : {len(pages)}") # Fusion des paragraphes qui s'étendent sur plusieurs pages - paragraphs = merge_paragraphs_across_pages(pages) + paragraphs = split_pages_in_paragraphs(pages) print(f"Nombre de paragraphes complets extraits : {len(paragraphs)}") # Dictionnaire pour stocker les résultats