Hi!
Vllt. blöde Frage, aber trotzdem: definiert UTF-8 auch Zeilenumbrüche, sprich: ist das Chaos mit Mac/Win/UN*X behoben? Weiterhin: kennt jemand ein schönes Script/Programm, mit dem sich Texte nach UTF-8 konvertieren lassen?
Danke!
MfG Sebastian
On Tue, Jan 17, 2006 at 10:07:51AM -0200, Sebastian Hegler wrote:
Vllt. blöde Frage, aber trotzdem: definiert UTF-8 auch Zeilenumbrüche, sprich: ist das Chaos mit Mac/Win/UN*X behoben?
keine Ahnung, aber vorstellen kann ich mir es nicht.
Weiterhin: kennt jemand ein schönes Script/Programm, mit dem sich Texte nach UTF-8 konvertieren lassen?
# man recode # man iconv
Marcus
Am Dienstag 17 Januar 2006 13:07 schrieb Sebastian Hegler:
Hi!
Vllt. blöde Frage, aber trotzdem: definiert UTF-8 auch Zeilenumbrüche, sprich: ist das Chaos mit Mac/Win/UN*X behoben?
Ich habe da bis jetzt noch keine Probleme gehabt.
Weiterhin: kennt jemand ein schönes Script/Programm, mit dem sich Texte nach UTF-8 konvertieren lassen?
man iconv
Tschau,
Falk
Oi rapaz,
El Martes, 17. Enero 2006 13:07, Sebastian Hegler escribió:
Hi!
Vllt. blöde Frage, aber trotzdem: definiert UTF-8 auch Zeilenumbrüche, sprich: ist das Chaos mit Mac/Win/UN*X behoben? Weiterhin: kennt jemand ein schönes Script/Programm, mit dem sich Texte nach UTF-8 konvertieren lassen?
UTF-8 = Unicode-Tabellen, die so herumgewurstelt wurden, dass sie zu ASCII kompatibel sind
ASCII = 7-Bit-Zeichen, deren erstes (höchstwertiges) Bit 0 ist
Also kann man alle Zeichen, deren erstes Bit 1 ist, für UTF-8 verwenden. Dabei lässt man dann das zweite Bit auf 0, um erkennen zu können, an welcher Position das Byte innerhalb des Zeichens es sich befindet. Das dritte Byte fängt dann mit 110 an usw.
Alle Zeichen, die in ASCII drin sind, u.a. alle Steuerzeichen, sind davon nicht betroffen. Ein \n [ASCII #10] bleibt weiterhin so auf Unix, und ein \r\n [ASCII #13#10] bleibt so auf Windows.
Es gibt "spezielle" Sonderzeichen (keine Steuerzeichen!) auch in den höheren Unicode-Tabellen. Die Franzosen kennen ein Leerzeichen, welches z.B. in LaTeX nicht für die Zeilentrennung herangezogen werden darf. Aber Zeilenumbrüche sind AFAIK nicht mit dabei.
Josef
P.S. Ein von mir erfundener Spruch zum Thema Zeichensätze: Those who think ASCII is sufficient for the English language are... naïve!
Ja, es ist verflixt kompliziert, sonst könnten auch Nameserver UTF-8 sprechen (statt Punycode), die Header in Emails so formatiert sein (statt Quoted-Printable), die Anhänge in Mails so übertragen werden (statt base64-Kodierung) etc.
P.P.S. UTF-16 ist entgegen landläufiger Meinung keine Obermenge von UTF-8, sondern verwendet stets 2-Byte-Blöcke. Das ist besser für die Chinesen (weil die mit UTF-8 schnell im 3-Byte-Bereich landen), aber schlechter für uns. Der Unterschied liegt einfach in der resultierenden Dateigröße.
On Tue, Jan 17, 2006 at 10:07:51AM -0200, Sebastian Hegler wrote:
Hi!
Vllt. blöde Frage, aber trotzdem: definiert UTF-8 auch Zeilenumbrüche, sprich: ist das Chaos mit Mac/Win/UN*X behoben?
Nein. UTF-8 codiert nur die Sonderzeichen, alles andere bleibt beim alten.
Ich durfte uebrigens vor zwei Wochen feststellen, dass zeilenweises Lesen mit der STL unter Linux die '\n' entfernt, unter Windows nur das '\r'. Froehliches Fehlersuchen.
Ulf
lug-dd@mailman.schlittermann.de