First/první Previous/předcházející Home Next/další Last/poslední

      Tesseract-OCR
 04  Převod souboru PDF




PDF bez textu obsahuje
naskenované neořezané obrázky
(s černým okrajem).

Náhled na stranu 4.
    



Strana 4 před ořezáním a po ořezání.  



Z JPG vytvořil Tesseract TXT.  



Složky pro zpracování PDF
      konverze PDF do JPG
      ořezání černý okrajů v JPG
      TXT po OCR
      vytvoření jednoho souboru z 37 textových souborů
     



    Když nakopíruji textové soubory
    do souboru DOCX, jsou na konci řádků znaky konce odstavce.
    Řádů je hodně neměl jsem odvahu znaky hromadně odstavit.
    Na konci řádků jsou i rozdělená slova.
     

    First/první Previous/předcházející Články / Articles Next/další Last/poslední

    Copyright Ing. Milan Čondák 14.03.2021