Hallo,
wie kann ich auf einfache Weise bestimmen, wie groß eine Webseite ist. Also sowas wie ein Offlinebrowser, der die zu übetragende Datenmenge ermittelt. Mit wget das für jeden Link per Hand zu tun, scheint mir etwas umständlich. Ausserdem wird ja so nicht berücksichtigt, welche Dateien sich schon im Cache befinden - oder sollte man das erst mal ignorieren? Nun kann ich mir auch mir Perl und LWP::UserAgent einen eigenen Browser bauen, der brav alle Links abklappert....hmm zur Not ja. aber vorher frag ich mal lieber: gibts da schon was??
Mit freundlichen Grüßen
Jens Puruckherr IT & Technik --------------------------------------------- cyberport.de GmbH Versandhaus für Technik & Lifestyle
Am Brauhaus 5 01099 DRESDEN Fon: +49 (0)351/ 33 95 -7808 Fax: +49 (0)351/ 33 95 -799 Webseite: http://www.cyberport.de --------------------------------------------
On Mon, Sep 16, 2002 at 12:29:35PM +0200, Jens Puruckherr wrote:
Hallo,
wie kann ich auf einfache Weise bestimmen, wie groß eine Webseite ist. Also sowas wie ein Offlinebrowser, der die zu übetragende Datenmenge ermittelt. Mit wget das für jeden Link per Hand zu tun, scheint mir etwas umständlich. Ausserdem wird ja so nicht berücksichtigt, welche Dateien sich schon im Cache befinden - oder sollte man das erst mal ignorieren? Nun kann ich mir auch mir Perl und LWP::UserAgent einen eigenen Browser bauen, der brav alle Links abklappert....hmm zur Not ja. aber vorher frag ich mal lieber: gibts da schon was??
Die wirkliche Größe bekommst du erst wenn du alles heruntergeladen hast. Dafür würde ich, wie von dir erwähnt, wget nehmen.
Auf die Seiten, die sich im Browser-Cache befinden kannst du von der Kommandozeile oder mit eigenen Programmen so gut wie nicht zugreifen.
Wenn du Größe aber vorher wissen willst, ohne Alles herunterzuladen, kannst du versuchen mit einem Perl/Python Script von allem was inline angezeigt wird (Bilder, ggf. Flash) nur die Variable Content-Length zu lesen. Doch damit du die Variable bekommst, musst du, so weit ich weiß, eh erst so tun als ob du die Datei herunterladen willst. Dann noch die Abfrage abzubrechen lohnt sich wahrscheinlihch nicht, außer es sind riesige Dateien.
Schönen Dienstag!
thomas
lug-dd@schlittermann.de writes:
Die wirkliche Größe bekommst du erst wenn du alles heruntergeladen hast. Dafür würde ich, wie von dir erwähnt, wget nehmen.
Das ist kein Problem, ich lade auch alels herunter. Das dumme an Wget ist nur, ich muss vorher einstellen, bis zu welcher Rekursionstiefe er alles holt. Das weiss ich nicht, da die Shopsoftware seltsamen Code erzeugt. Mal Frames, mal nicht. Na gut, mit bissel Handarbeit bekommt man das raus.
Wenn alles auf der Platte ist hilft mir 'du' nicht weiter....wie summiere ich mittels 'ls' die richtigen Dateigrößen? Und: letztenendlich will ich nicht durch 100000Produktseiten zu Fuss gehen, sondern das irgendwie automatisieren
Auf die Seiten, die sich im Browser-Cache befinden kannst du von der Kommandozeile oder mit eigenen Programmen so gut wie nicht zugreifen.
Ja, das ist klar. Aber darauf können wir bewusst verzichten.
Wenn du Größe aber vorher wissen willst, ohne Alles herunterzuladen, kannst du versuchen mit einem Perl/Python Script von allem was inline angezeigt wird (Bilder, ggf. Flash) nur die Variable Content-Length zu lesen. Doch damit du die Variable bekommst, musst du, so weit ich weiß, eh erst so tun als ob du die Datei herunterladen willst. Dann noch die Abfrage abzubrechen lohnt sich wahrscheinlihch nicht, außer es sind riesige Dateien.
Ja, einen eigenen Perl-Browser schreiben, ist warscheinlich optimal...schön mit Reporting und alles in eine Datenbank zum Vergleich über die Zeit, wie der Shop wächst und gedeiht....Naja...nächses Jahr vielleicht.
Ich habe zumindest für Windows etwas komfortables gefunden- ContentSaver. Eine Art Offlinebrowser, der es erlaubt auf Klick bestimmte Seiten zu archivieren, zu kommentieren, zu sortieren und mir schnell die Möglichkeit gab, dem Chef seine Infos zu geben. Schade....
Mit freundlichen Grüßen
Jens Puruckherr I
On Tue, Sep 17, 2002 at 08:29:04AM +0200, Thomas Guettler wrote:
Wenn du Größe aber vorher wissen willst, ohne Alles herunterzuladen, kannst du versuchen mit einem Perl/Python Script von allem was inline angezeigt wird (Bilder, ggf. Flash) nur die Variable Content-Length zu lesen. Doch damit du die Variable bekommst, musst du, so weit ich weiß, eh erst so tun als ob du die Datei herunterladen willst
Mithilfe eines HEAD- statt eines GET-Requests kann man auch nur an die Header kommen. Ansonsten sei gewarnt, daß es auch fehlkonfigurierte Server gibt, bei denen Content-Length schlichtweg auf einen falschen Wert gesetzt ist (tritt z.B. gerne in Zusammenhang mit Server Sided Includes auf). Man kann sich also nicht hundertprozentig auf diese Variable verlassen.
Grüße Martin
lug-dd@mailman.schlittermann.de