Carsten Schurig wrote:
Hallo Carsten,
Ich habe mal kurz gegoogelt: "t1enc schaltet auf 8bit-Zeichensatz um. Bei t1enc kann TeX auch deutsche Umlaute korrekt trennen."
Wenn Du Latex ohne T1-Kodierung verwendest (also mit OT1), werden Buchstaben mit Aktzenten (also auch die Umlaute) aus 7bit-Buchstaben und dem Aktzent zusammengesetzt. Das ist so natürlich für andere Programme nur mit Zusatzwissen extrahierbar und sollte somit i. a. nicht funktionieren. Das mit der Trennung ist auch auf die Zusammensetzung der Buchstaben zurückzuführen (AFAIR).
Danke für die Erklärung. Da habe ich wenigstens schonmal einen Ansatz.
... wenn ich jetzt noch wüsste, wie ich den schon vorhandenen Mist möglichst einfach wieder zu Text mache ...
Ich schätze mit viel Handarbeit... IMO sollte es auch egal sein, aus welchem Format heraus Du eine automatische Umwandlung versuchst. Ein durch TeX zusammengesetzter Buchstabe ist in DVI, PS und PDF ein zusammengesetzer Buchstabe (und nicht die 8bit Variante). Außer natürlich es gibt irgendwo ein Progrämmchen, das genau diese Problematik betrachtet.
$> catdvi textest.dvi abcde?a?u?o??e`e??`??a "abc"
... du hast offensichtlich recht ...
$> dvips textest.ps $> ps2ascii textest.ps
abcde"a"u"oss'e`e'i`i'a"abc"
... Hm. Es scheint also so, als wenn ich in pdftotext reinschauen müsste und zusätzlich zum Code der Glyphen auch noch bestimmen müsste, welche aufeinanderfolgenden übereinander liegen, und damit dann in eine zusätzliche Konvertierungstabelle greifen. Nicht schön aber wenigstens ein möglicher Weg.
Falls es einen noch näher interessiert: Unter folgender URL gibt's ein typisches Beispiel für einen Vertreter von wissenschaftlichen Artikeln, die mit LaTeX erstellt wurden:
http://www-ai.informatik.uni-dortmund.de/DOKUMENTE/joachims_98a.pdf
Weder pdftotext v1.01 noch pdftotext v2.00 liefern sinnvolle Ergebnisse. Auch ist z.B. in keinem Fall das Wort "difficult" zu extrahieren. Es ist ja schön, wenn das Doppel-F für ein schönes Schriftbild besonders gesetzt wird (Ligatur ?), aber warum dann beim Text-Extrahieren kein Doppel-F mehr draus werden soll, kann ich nicht so recht verstehen.
Carsten
Danke,
Jens