Hallo LUG,
wo das Thema gerade durch die Liste geistert ... Ich ärgere mich seit geraumer Zeit mit der Extraktion des Text-Inhaltes von PDF-Dateien herum. Mit vielen PDF-Dateien, die man so in freier Wildbahn antrifft geht daß eigentlich relativ gut. Nur mit LaTeX-generierte PDF-Dateien sind regelmäßig sehr problematisch. Es gibt da welche, wo garnichts mehr herauszuholen ist (nur Schrott) und welche, die "nur" Probleme bei bestimmten Zeichen machen.
Konkret geht es um deutsche Umlaute (dasselbe trifft aber auch für die diversen anderen Sonderzeichen der europäischen Sprachen zu). Meine tex-Datei benutzt \usepackage[latin1]{inputenc} und ich gebe die Umlaute normal per Tastatur ein. Nach dem Erstellen der PDF-Datei mit pdftex liefert ein pdftotext (Teil von xpdf), oder Kopieren im Acrobat Reader nur noch Zeichensalat.
Ich hatte gehofft, daß sich das mit den 1.xx Versionen von pdftex gibt, aber es ist immer noch so. Es ist mir ja eigentlich auch egal, wie Tex intern mit den ganzen Zeichen umgeht, solange nur die Tabellen für die Rückkonvertierung der Zeichen in der PDF-Datei wieder richtig sind, so daß dort der Text mit Umlauten auch wieder herauskommt.
So ist z.B. eine Suche mit glimpse über einen Haufen von PDF-Dateien für Worte, die etwas mehr als 7bit-ASCII enthalten ziemlich sinnlos. Das nervt mich. Besonders weil jedes mit Word/Acrobat erstellte Dokument das ohne Probleme kann.
Freundlich Grüßend und auf den entscheidenden Hinweis hoffend,
Jens