Problem war, dass ich mir mit Hilfe zweier verschachtelter for-Schleifen alle Pixelwerte eins Bildes angeschaut habe und diese dann jeweils in einen anderen Farbraum transformiert habe.
Hier koennte auch der Intel-Compiler helfen. Dieser kann automatisch SSEx-code erzeugen und automatisch vektorisieren. Bei einem einfachen benchmark mit einer verschachtelten Schleife habe ich hier Beschleunigungen um mehrere 100% gegenueber gcc erzielt. Es gibt eine Eval-Version des Intel-Compilers fuer 2 Wochen.