Am Sonntag, 24. November 2002 17:10 schrieb Stefan Lagotzki:
Es gaebe uebrigens auch noch die Moeglichkeit, den Text per OCR zu extrahieren.
Das Problem mit den Ligaturen bleibt dennoch erhalten. Mit "ff", "fi" oder dem großen I (iiihh..) und dem kleinen l (ell) treibt man jede arglose OCR-Software an den Rand des Möglichen. Zumindest hat gocr damit so seine Probleme. Erst die Verknüpfung mit einem Wörterbuch kann da Abhilfe schaffen. Spätestens bei Formeln oder Diagrammen dürfte dann das Ende der Fahnenstange erreicht sein.
Jens