Stefan Lagotzki wrote:
Jens Lorenz wrote:
Wer das schlimmste sehen will, was einem bei sowas passieren kann, kann ja einfach mal diese pdf-Datei mit ghostscript wieder in PDF umwandeln.
Aber PDF wurde nicht als Format zur Verteilung von Quelltexten oder ASCII-Textauszuegen erfunden;
Das ist mir bewußt. Aber immerhin werden eine ganze Reihe von Informationen inzwischen als PDF durch die Gegend geschickt. Auch hat der Acrobat Reader eine Option zum Durchsuchen von der aktuellen PDF-Datei und Anlegen von Indizes zum Suchen in einem ganzen Haufen von PDF-Dateien, wie auch zur Extraktion der Textinformationen.
Ich will ja auch garnicht an Quelltexte oder ASCII-Textauszüge, sondern ich wurde gerne sinnvoll in allen PDF-Dateien suchen können und das auch nach Worten mit Doppel-F und Umlauten.
manche Autoren wollen vielleicht gar nicht, dass da jemand ihre Dokumente einfach wieder in Text umwandeln kann.
Dafür gibt es eigentlich entsprechende Optionen im PDF. pdftotext extrahiert z.B. den Text nicht, wenn die entsprechende Option gesetzt ist. Solche Dateien sind für mich aber eh uninteressant.
In den LaTeX-Newsgroups kommt regelmaessig die Frage, ob man aus PDF wieder einen LaTeX-Quelltext machen kann und die uebliche Antwort ist dann: kannst Du ein Glas Apfelmus in Aepfel zurueckverwandeln?
Wie schon gesagt, ich will keinen LaTeX-Quelltext. Ich will den reinen Text in ein Suchmaschine füttern und Indizes aufzubauen.
Sicher nicht. Nur bei PDF ist dieser Weg explizit im Dateiformat vorgesehen (wie auch das verbieten dieses Weges). Insofern hinkt der Vergleich mit den Äpfeln und dem Apfelmuß etwas. Ich lasse mir es gerne gefallen, wenn du sagst, daß LaTeX nicht für das Erstellen von PDF gedacht war und deswegen mit LaTeX erzeugtes PDF so viele Probleme macht.
Stefan
Jens