Hallo Bernd,
 
im Prinzip habe ich "digital analog" gearbeitet. Alles ande2re auszuknobeln hätte länger gedauert soviel musst eich ja nicht machen.
 
Tesseract hat zwar diverse Sprachfiles auch deutsch ber das hat irgendwie nicht funktioniert. Ich hab dann aber auch keine Energie darauf verschwendet warum das Ding keine deutsche Sprache laden wollte.
 
tesseract <Grafikdatei> -l deu wäre die korrekte Syntax gewesen, danach kommt eine Ascii heraus darin habe ich die Umlaute und Sonderzeichen korrigiert,die Absätze gelöscht  wo nötig,den Text in eine odt kopiert und das wars. Das hat sich 27 mal wiederholt sind am Ende 12 Seiten A4 unbearbeitet.
Du brauchst mindestens einen Graustufenscan in mindestens 75 dpi. Das war schon der ganze faiule Zauber^^
 
Mehr gibts da eigentloch nicht zu berichten. Für meine Zwecke hätte die Fehlersuche warum liest der nicht deutsch, länger gedauert wie das manuelle Nacharbeiten und durchlesen muss man den Text danach eh.
 
Um daraus einen Vortrag zu formen müsste ich doch eine arge Luftpumpe spielen, dafür bräuchte man doch mehr substantiellen Inhalt, für weitergehende Fragen stehe ich gerne noch zur Verfügung aber wie gesagt passiert ist hier ja nicht viel
 
Grüße aus dem Weinland Baden
 
Ottmar
 
 
 
Gesendet: Montag, 22. Februar 2021 um 09:27 Uhr
Von: "Bernhard Schiffner" <bernhard.schiffner@gmx.net>
An: "Linux-User-Group Dresden" <lug-dd@mailman.schlittermann.de>
Betreff: Re: Aw: Re: Printmedien digitalisieren
Danke für die Rückmeldung, klingt ziemlich gut!

Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder mal virtuell treffen auf
https://bbb.schlittermann.de/b/gre-kcf-m77

Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so.
(Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...)

Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die mit griechischem Zeichensatz ausdruckt und dann vergleicht.
Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker gebrochen wurde.
(SCO vs. IBM)

Bernhard

Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb Ottmar-Schmidt@web.de:
> Hallo Freunde,
>
> Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging einigermappen gut. Danke fpr die Hilfe
>
> Grüße aus dem Weinland Baden
> Ottmar