Hallo!
Meine Seiten werden mit AJAX und Co aufgebaut. Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert, brauche ich einen Weg, um dem Crawler reinen HTML-Code mit dem gesamten Content zu liefern. Also eine Browserweiche, die den Code von JavaScript befreit.
Ideal wäre das in PHP: echo getRidOfJS("angeforderte URL");
Es geht aber auch ein Kommandozeilentool: $ textbrowser "angeforderte URL" --giveMeTheCode
Aber auch da habe ich nichts gefunden. Das einzige mir bekannte ist die Funktion "show generated code" in Entwicklungsbereichen von FireFox und Chrome. Allerdings stelle ich es mir extrem träge vor, bei jedem Hit des Crawlers so ein Monster zu starten.
Die Logik der gesamten Seite zusätzlich in PHP zu schreiben ist unpraktikabel.
Viele Grüße Thomas
Hi,
2011/2/5 Thomas Schmidt schmidt@netaction.de:
Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert
Google interpretiert schon lange JavaScript, allerdings nur in sehr geringem Umfang.
Viele Grüße, Torsten
Am 5. Februar 2011 18:03 schrieb Torsten Werner mail.twerner@googlemail.com:
2011/2/5 Thomas Schmidt schmidt@netaction.de:
Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert
Google interpretiert schon lange JavaScript, allerdings nur in sehr geringem Umfang.
Google fischt Adressen aus dem Code und verfüttert sie an den Crawler. Die Begriffe in einem document.write() werden aber weder indiziert, noch erscheinen sie im Google Cache oder auf der Ergebnisseite. Oder weißt du sicher das Gegenteil?
Für mich hat das mit Ausführen von Code nichts zu tun, sondern ist eine gezielte Suche nach Informationen.
Thomas
Hallo,
vielleicht hilft dir ein headless-Browser auf Webkit-Basis. Leider kann ich dazu nicht mehr Informationen liefern, weil wir damals davon abgelassen haben.
Gruß
Björn
Am 05.02.2011 18:19, schrieb Thomas Schmidt:
Am 5. Februar 2011 18:03 schrieb Torsten Werner mail.twerner@googlemail.com:
2011/2/5 Thomas Schmidt schmidt@netaction.de:
Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert
Google interpretiert schon lange JavaScript, allerdings nur in sehr geringem Umfang.
Google fischt Adressen aus dem Code und verfüttert sie an den Crawler. Die Begriffe in einem document.write() werden aber weder indiziert, noch erscheinen sie im Google Cache oder auf der Ergebnisseite. Oder weißt du sicher das Gegenteil?
Für mich hat das mit Ausführen von Code nichts zu tun, sondern ist eine gezielte Suche nach Informationen.
Thomas
Hej!
Meine Seiten werden mit AJAX und Co aufgebaut. Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert, brauche ich einen Weg, um dem Crawler reinen HTML-Code mit dem gesamten Content zu liefern.
Möglicherweise hilft dir Apache Rhino dabei, ein "de-JS-Tool" zu schreiben. Vermutlich artet das aber in die geschickte Ausnutzung von Gegebenheiten des Codes deiner Seite sowie sehr viel "Glue Code" aus.
Die Logik der gesamten Seite zusätzlich in PHP zu schreiben ist unpraktikabel.
Du hast ja nix weiter zu deiner Seite geschrieben (wie dynamisch, was eigentlich, wie werden Daten in URLs kodiert, ...), aber prinzipiell ist das möglicherweise einfacher als du denkst: schließlich musst du nur den *Hauptinhalt* als Text abliefern, ohne Navigation, Formatierung, ... - sofern eben eine URL einem Inhalt zugeordnet ist.
Wenn der Nutzer anhand von JS-Elementen verschiedene Inhalte auswählen kann, ist es auch nicht mehr *möglich*, jedem dieser Inhalte eine URL zu verpassen, mit der man direkt (ohne JS-Interaktion direkt vom Suchmaschinenlink) zu diesem Inhalt gelangt.
Beste Grüße Fabian
Am 5. Februar 2011 23:54 schrieb Fabian Hänsel fabtagon@gmx.de:
Du hast ja nix weiter zu deiner Seite geschrieben (wie dynamisch, was eigentlich, wie werden Daten in URLs kodiert, ...), aber prinzipiell ist das möglicherweise einfacher als du denkst: schließlich musst du nur den *Hauptinhalt* als Text abliefern, ohne Navigation, Formatierung, ... - sofern eben eine URL einem Inhalt zugeordnet ist.
Es soll eine Art Mischung aus Point&Click und Textadventure sein, bei dem man sich durch die Räume klickt. Serverseitige Lösungen können nicht ausreichend Effekte darstellen bzw. werden Animationen dann echt kompliziert. Außerdem ist jQuery einfach schöne Sprache, um den Entwicklern ein einfaches und trotzdem flexibles Framework zu geben.
Die Räume enthalten durchaus relevante Informationen, die indiziert werden sollen.
Wenn der Nutzer anhand von JS-Elementen verschiedene Inhalte auswählen kann, ist es auch nicht mehr *möglich*, jedem dieser Inhalte eine URL zu verpassen, mit der man direkt (ohne JS-Interaktion direkt vom Suchmaschinenlink) zu diesem Inhalt gelangt.
Wie meinst du JS-Interaktion? Wenn ich auf https://www.netaction.de/hashbang/ "Katze" klicke, komme ich auf https://www.netaction.de/hashbang/#!Katze . Dies ist die URL direkt zum katzenspezifischen Text. Twitter und Facebook verwenden URLs mit Hash schon lange.
Am 7. Februar 2011 11:20 schrieb William Epler william.epler@globalfoundries.com:
Meine Seiten werden mit AJAX und Co aufgebaut.
Das ist eine sehr schlechte Idee, wenn man darauf Wert legt, daß die Seite von Suchmaschinen indiziert wird. Siehe http://www.google.com/support/webmasters/bin/answer.py?answer=35769&hl=d... "Erstellen Sie Seiten in erster Linie für Nutzer, nicht für Suchmaschinen. Versuchen Sie nicht, Ihre Nutzer zu täuschen. Stellen Sie zudem keinen Content für Suchmaschinen bereit, den Sie nicht für Ihre Besucher verwenden. Dies wird als "Cloaking" bezeichnet."
Wenn du schon bei Google bist, lies bitte weiter: http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=1749...
Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert,
Das ist kein Mangel, im Gegenteil. http://www.woodshed.de/publikationen/dialog-robot.html
Was genau hat Suchmaschinenoptimierung mit Suchmaschinenignoranz zu tun?
Thomas
Am Samstag 05 Februar 2011, 17:10:37 schrieb Thomas Schmidt:
Hallo!
Meine Seiten werden mit AJAX und Co aufgebaut.
Das ist eine sehr schlechte Idee, wenn man darauf Wert legt, daß die Seite von Suchmaschinen indiziert wird. Siehe http://www.google.com/support/webmasters/bin/answer.py?answer=35769&hl=d... "Erstellen Sie Seiten in erster Linie für Nutzer, nicht für Suchmaschinen. Versuchen Sie nicht, Ihre Nutzer zu täuschen. Stellen Sie zudem keinen Content für Suchmaschinen bereit, den Sie nicht für Ihre Besucher verwenden. Dies wird als "Cloaking" bezeichnet."
Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert,
Das ist kein Mangel, im Gegenteil.
http://www.woodshed.de/publikationen/dialog-robot.html
Hi Thomas:
2011/2/6 Thomas Schmidt schmidt@netaction.de
Meine Seiten werden mit AJAX und Co aufgebaut. Da Tante Google bis heute keine einzige Zeile JavaScript interpretiert, brauche ich einen Weg, um dem Crawler reinen HTML-Code mit dem gesamten Content zu liefern. Also eine Browserweiche, die den Code von JavaScript befreit.
Egtl ist es eher umgekehrt. Du brauchst eine Brauserweiche um JS einzubauen. ;-)
Konzept heisst: "Progressive Enhancement".
Ganz simpel: Du stellst zuerst sicher das Deine Seiten ohne JS funktional sind, d.h. static HTML zum verlinken (via a-tags) etc. Danach fuegst Du entsprechend meta-informationen ein (bspw. rel="" Attribute in die <a> tags) und fuegst JS hinzu welches das dann auswerten kann. Anhand des rel="" Inhaltes wuerde dein JS dann beim "click" event ein Stueck Ajax laden.
Theoretisch kann Deine JS-Loesung auch die Links beim "onClick" mit einem ?ajax=1 Parameter erweitern, welcher dann serverseitig ausgewertet wird und ein Stueck Seite liefert, statt einer ganzen Seite. Mit jQuery sicher simpel.
Ein richtiges Code-Beispiel habe ich gerade nicht zur Hand, aber bei stackoverflow.com gibts bestimmt was.
VG, Sebastian
lug-dd@mailman.schlittermann.de