Hallo LUG,
wo das Thema gerade durch die Liste geistert ... Ich ärgere mich seit
geraumer Zeit mit der Extraktion des Text-Inhaltes von PDF-Dateien
herum. Mit vielen PDF-Dateien, die man so in freier Wildbahn antrifft
geht daß eigentlich relativ gut. Nur mit LaTeX-generierte PDF-Dateien
sind regelmäßig sehr problematisch. Es gibt da welche, wo garnichts mehr
herauszuholen ist (nur Schrott) und welche, die "nur" Probleme bei
bestimmten Zeichen machen.
Konkret geht es um deutsche Umlaute (dasselbe trifft aber auch für die
diversen anderen Sonderzeichen der europäischen Sprachen zu). Meine
tex-Datei benutzt \usepackage[latin1]{inputenc} und ich gebe die Umlaute
normal per Tastatur ein. Nach dem Erstellen der PDF-Datei mit pdftex
liefert ein pdftotext (Teil von xpdf), oder Kopieren im Acrobat Reader
nur noch Zeichensalat.
Ich hatte gehofft, daß sich das mit den 1.xx Versionen von pdftex gibt,
aber es ist immer noch so. Es ist mir ja eigentlich auch egal, wie Tex
intern mit den ganzen Zeichen umgeht, solange nur die Tabellen für die
Rückkonvertierung der Zeichen in der PDF-Datei wieder richtig sind, so
daß dort der Text mit Umlauten auch wieder herauskommt.
So ist z.B. eine Suche mit glimpse über einen Haufen von PDF-Dateien für
Worte, die etwas mehr als 7bit-ASCII enthalten ziemlich sinnlos. Das
nervt mich. Besonders weil jedes mit Word/Acrobat erstellte Dokument das
ohne Probleme kann.
Freundlich Grüßend und auf den entscheidenden Hinweis hoffend,
Jens
--
Lorej at gmx dot de \\|//
(o o)
~~~~oOOo~(_)~oOOo~~~~