lug-dd@schlittermann.de writes:
Die wirkliche Größe bekommst du erst wenn du alles heruntergeladen hast. Dafür würde ich, wie von dir erwähnt, wget nehmen.
Das ist kein Problem, ich lade auch alels herunter. Das dumme an Wget ist nur, ich muss vorher einstellen, bis zu welcher Rekursionstiefe er alles holt. Das weiss ich nicht, da die Shopsoftware seltsamen Code erzeugt. Mal Frames, mal nicht. Na gut, mit bissel Handarbeit bekommt man das raus.
Wenn alles auf der Platte ist hilft mir 'du' nicht weiter....wie summiere ich mittels 'ls' die richtigen Dateigrößen? Und: letztenendlich will ich nicht durch 100000Produktseiten zu Fuss gehen, sondern das irgendwie automatisieren
Auf die Seiten, die sich im Browser-Cache befinden kannst du von der Kommandozeile oder mit eigenen Programmen so gut wie nicht zugreifen.
Ja, das ist klar. Aber darauf können wir bewusst verzichten.
Wenn du Größe aber vorher wissen willst, ohne Alles herunterzuladen, kannst du versuchen mit einem Perl/Python Script von allem was inline angezeigt wird (Bilder, ggf. Flash) nur die Variable Content-Length zu lesen. Doch damit du die Variable bekommst, musst du, so weit ich weiß, eh erst so tun als ob du die Datei herunterladen willst. Dann noch die Abfrage abzubrechen lohnt sich wahrscheinlihch nicht, außer es sind riesige Dateien.
Ja, einen eigenen Perl-Browser schreiben, ist warscheinlich optimal...schön mit Reporting und alles in eine Datenbank zum Vergleich über die Zeit, wie der Shop wächst und gedeiht....Naja...nächses Jahr vielleicht.
Ich habe zumindest für Windows etwas komfortables gefunden- ContentSaver. Eine Art Offlinebrowser, der es erlaubt auf Klick bestimmte Seiten zu archivieren, zu kommentieren, zu sortieren und mir schnell die Möglichkeit gab, dem Chef seine Infos zu geben. Schade....
Mit freundlichen Grüßen
Jens Puruckherr I