Danke für die Rückmeldung, klingt ziemlich gut!
Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder mal virtuell treffen auf https://bbb.schlittermann.de/b/gre-kcf-m77
Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so. (Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...)
Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die mit griechischem Zeichensatz ausdruckt und dann vergleicht. Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker gebrochen wurde. (SCO vs. IBM)
Bernhard
Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb Ottmar-Schmidt@web.de:
Hallo Freunde,
Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging einigermappen gut. Danke fpr die Hilfe
Grüße aus dem Weinland Baden Ottmar
Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für das Tesseract trainiert wurde (irgendwie meine ich das könnte ein Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux einen Anwendungsfall wegen schwierigem Font).
nach ein wenig Suche …
Ein Vortrag den ich meine nicht wiederzuerkennen … https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buech... … aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse: gesammelte-werke.org
Für die Umwandlung von einem Markup-Format (für die meisten Zwecke dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen kann das auch reproduzierbare Ergebnisse liefern.[0]
[0]: https://github.com/jgm/pandoc/issues/7093
On 22.02.21 09:27, Bernhard Schiffner wrote:
Kann man tesseract einlernen?
Hi!
Am 22.02.2021 um 09:27 schrieb Bernhard Schiffner bernhard.schiffner@gmx.net:
Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen?
tesseract kommt mit sprach-spezifischen Paketen "hartkodierten Wissens": https://github.com/tesseract-ocr/langdata . Man muss die Sprache(n) vorgeben, sonst kommt Murks raus.
Um noch was dazuzusenfen: mein Favorit ist ocrmypdf: https://github.com/jbarlow83/OCRmyPDF , als Kommandozeilen-Komplettlösung.
Viele Grüße Sebastian
lug-dd@mailman.schlittermann.de