Hi!
Am 22.02.2021 um 09:27 schrieb Bernhard Schiffner bernhard.schiffner@gmx.net:
Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen?
tesseract kommt mit sprach-spezifischen Paketen "hartkodierten Wissens": https://github.com/tesseract-ocr/langdata . Man muss die Sprache(n) vorgeben, sonst kommt Murks raus.
Um noch was dazuzusenfen: mein Favorit ist ocrmypdf: https://github.com/jbarlow83/OCRmyPDF , als Kommandozeilen-Komplettlösung.
Viele Grüße Sebastian