Stefan Berthold wrote:
Once upon a time, I heard Jens Lorenz say:
http://www-ai.informatik.uni-dortmund.de/DOKUMENTE/joachims_98a.pdf Weder pdftotext v1.01 noch pdftotext v2.00 liefern sinnvolle Ergebnisse.
Ich habe die Datei im Acrobat Reader 4 unter Linux geöffnet, in eine Datei gedruckt (da kommt aus historischen Gründen immer PostScript raus) und die dann mit ps2ascii (also dem ersten Tool, was ich gesehen habe) nach plain/text gewandelt. Ein grep nach difficult über diese Datei liefert ein positives Ergebnis:
dingx@fyr:/tmp$ ps2ascii test.ps | grep difficult | wc -l 1
Das geht sogar direkt, weil ps2ascii Teil von ghostscript ist.
$> ps2ascii joachims_98a.pdf | grep difficult | wc -l 1
gut.
Konstruierte Umlaute werden davon aber nicht richtig gewandelt.
Ich sehe schon, es wird wohl nichts anderes übrig bleiben, als mit Hilfe von Statistiken über den Text herauszufinden, welche der x-Methoden denn nun am besten wirkt, oder ich packe alles in pdftotext hinein (was ich wahrscheinlich eh nicht schaffe).
Jens