On Sat, 23 Nov 2002 18:11:37 +0100 Jens Lorenz Lorej@gmx.de wrote:
Ich habe mal kurz gegoogelt: "t1enc schaltet auf 8bit-Zeichensatz um. Bei t1enc kann TeX auch deutsche Umlaute korrekt trennen."
Wenn Du Latex ohne T1-Kodierung verwendest (also mit OT1), werden Buchstaben mit Aktzenten (also auch die Umlaute) aus 7bit-Buchstaben und dem Aktzent zusammengesetzt. Das ist so natürlich für andere Programme nur mit Zusatzwissen extrahierbar und sollte somit i. a. nicht funktionieren. Das mit der Trennung ist auch auf die Zusammensetzung der Buchstaben zurückzuführen (AFAIR).
... wenn ich jetzt noch wüsste, wie ich den schon vorhandenen Mist möglichst einfach wieder zu Text mache ...
Ich schätze mit viel Handarbeit... IMO sollte es auch egal sein, aus welchem Format heraus Du eine automatische Umwandlung versuchst. Ein durch TeX zusammengesetzter Buchstabe ist in DVI, PS und PDF ein zusammengesetzer Buchstabe (und nicht die 8bit Variante). Außer natürlich es gibt irgendwo ein Progrämmchen, das genau diese Problematik betrachtet.
Carsten