Once upon a time, I heard Jens Lorenz say:
http://www-ai.informatik.uni-dortmund.de/DOKUMENTE/joachims_98a.pdf Weder pdftotext v1.01 noch pdftotext v2.00 liefern sinnvolle Ergebnisse.
Ich habe die Datei im Acrobat Reader 4 unter Linux geöffnet, in eine Datei gedruckt (da kommt aus historischen Gründen immer PostScript raus) und die dann mit ps2ascii (also dem ersten Tool, was ich gesehen habe) nach plain/text gewandelt. Ein grep nach difficult über diese Datei liefert ein positives Ergebnis:
dingx@fyr:/tmp$ ps2ascii test.ps | grep difficult | wc -l 1
Konstruierte Umlaute werden davon aber nicht richtig gewandelt.
Es ist ja schön, wenn das Doppel-F für ein schönes Schriftbild besonders gesetzt wird
Finde ich auch, ein großer Vorteil von LaTeX gegenüber Word und anderen Vertretern der WYWSIWYH(WhatYouWillSeeIsWhatYouHate)-Sparte.
hej så länge.