stefankittel
Goto Top

Wie eine statisch Kopie einer Webseite unter Linux erstellen, mit https-Proxy support und Multithreading

Hallo,

ich möchte gerne regelmäßig eine statische Kopie einer Webseite erstellen.
Klingt einfach.

1. Das Programm muss unter Linux (Ubuntu 18 LTS)
2. Die Webseite ist nur per https und per Proxy erreichbar.
3. Der Vorgang muss in einer bestimmten Zeit abgeschlossen sein.
4. Recursiv die ganze Webseite mit Bildern sowie nestet CSS und JS
5. Der Vorgang muss programmgesteuert ohne menschliche Hilfe ablaufen

httrack
Leider hat httrack einen Bug und der Proxy funktioniert nur mit http und nicht mit https.
Kein Update seit 2017

wget
kann kein Multithreading und benötigt fast 20 mal so lange wie htttrack.

wget2
alpha

aria2
kann nur einzelne Dateien runterladen aber nicht parsen.

Kennt Jemand ein Tool was ich einsetzen kann.
Es darf auch etwas kosten.

Stefan

Content-Key: 565585

Url: https://administrator.de/contentid/565585

Printed on: April 19, 2024 at 10:04 o'clock

Member: cykes
cykes Apr 18, 2020 updated at 04:57:08 (UTC)
Goto Top
Moin,

schau Dir mal curl an, hier eine Feature-Vergleichstabelle: https://curl.haxx.se/docs/comparison-table.html (dort finden sich auch noch andere Tools).

Gruß

cykes
Member: it-fraggle
it-fraggle Apr 18, 2020 updated at 07:50:02 (UTC)
Goto Top
Habe meinen Vorschlag zurückgezogen.
Member: falscher-sperrstatus
falscher-sperrstatus Apr 18, 2020 at 08:46:33 (UTC)
Goto Top
Hallo Stefan,

vielleicht fehlt für die korrekte Beantwortung der Hintergrund, aber für eine pure statische und oder offline Kopie hat Httrack bisher wunderbar funktioniert.

Mit Proxy hab ich es noch nie probiert, sure. aber vielleicht liegt es auch am Proxy, dass es generell nicht funktioniert. Daher hintergrund..

Grüße,

Christian
certifiedit.net
Member: StefanKittel
StefanKittel Apr 18, 2020 at 09:05:59 (UTC)
Goto Top
Moin,

Zitat von @falscher-sperrstatus:
vielleicht fehlt für die korrekte Beantwortung der Hintergrund, aber für eine pure statische und oder offline Kopie hat Httrack bisher wunderbar funktioniert.
Mit Proxy hab ich es noch nie probiert, sure. aber vielleicht liegt es auch am Proxy, dass es generell nicht funktioniert. Daher hintergrund..

ja, httrack ist im prinzip super, hat aber diese fiesen Bug.
Der Proxy funktioniert wunderbar mit http, aber mit https gar nicht. Das ist ein bekannter Bug.
Und seit 2017 gibt es auch keine neue Version mehr. Also ein abandoned Projekt.
Member: StefanKittel
StefanKittel Apr 18, 2020 updated at 09:17:41 (UTC)
Goto Top
Hallo,

Curl kann auch nur einzelne Daten runterladen.

Update: Der Download selber ist weniger das Problem.
Wichtiger ist vielmehr das parsen von html, css und js mit zum Teil eingebundenen und maskierten relativen Links.
Das kann httrack richtig gut, wget mäßig gut.

pavuk: Letztes Update 2007
wget2: frühe alpha
wget1: langsam
httrack: proxy bug mit https
lftp: ist dafür nicht gedacht und kann keine css/js parsen

Die Liste ist trotzdem prima: Denn andere habe ich auch nicht gefunden.
Also bleint nur wget1 und selber programmieren
Member: falscher-sperrstatus
falscher-sperrstatus Apr 18, 2020 at 09:19:25 (UTC)
Goto Top
bleibt immernoch die Frage nach dem Hintergrund?
Member: StefanKittel
StefanKittel Apr 18, 2020 at 09:22:49 (UTC)
Goto Top
Hallo,

die Seite selber kann nur über einen Proxy aufgerufen werden.
Auch kann die Seite nur über https aufgerufen werden.

Und der Proxy in httrack funktioniert für https gar nicht.
Für http prima, aber für https wird er einfach ignoriert.

Mit einem Browser wo ich den Proxy eintragen kann ich verifizieren, dass der Proxy selber funktioniert.

Stefan
Member: falscher-sperrstatus
falscher-sperrstatus Apr 18, 2020 at 09:24:27 (UTC)
Goto Top
vielleicht, weil der Browser weiter denkt oder es funktioniert für deinen Anwendungsfall nicht - willst du eine Statische Kopie der Website, wenn ja, welcher und mit dem Weiterverarbeitungshintergrund - wo steht der Proxy und was für einer ist es etc.
Member: StefanKittel
StefanKittel Apr 18, 2020 at 10:20:39 (UTC)
Goto Top
Hallo,

ich kann mit Wireshark sehen, dass alle http-Anfragen von httrack über den Proxy gehen und alle https-Anfrage direkt ohne Proxy.
Ich habe das ausgiebig getestet weil ich es nicht glauben wollte. Außerdem gibt es mehrere Fundstellen die vergleichbares berichten.
Alle Anfragen im Forum werden seit langem nicht mehr beantwortet und eine neue Version gibt es seit 2017 auch nicht.

Ende... Tot... begraben....
schade
Member: falscher-sperrstatus
falscher-sperrstatus Apr 18, 2020 at 10:22:11 (UTC)
Goto Top
beantwortet aber die Frage nicht, was du vor hast - möchtest du eine deiner Websites statisch zur Verfügung stellen (weil alte PHP o.ä) oder möchtest du eine andere Seite grabben, zu dem eine, die Hinter einem Proxy hängt (welchem wenn bekannt etc)...
Mitglied: 143728
143728 Apr 18, 2020 at 11:46:50 (UTC)
Goto Top
Member: cykes
cykes Apr 18, 2020 at 11:50:13 (UTC)
Goto Top
Zitat von @143728:

http://www.surfoffline.com
erfüllt folgende Anforderung nicht so ganz:
1. Das Programm muss unter Linux (Ubuntu 18 LTS) [laufen]
face-wink
Gruß
cykes
Mitglied: 143728
143728 Apr 18, 2020 updated at 11:52:06 (UTC)
Goto Top
Zitat von @cykes:

Zitat von @143728:

http://www.surfoffline.com
erfüllt folgende Anforderung nicht so ganz:
1. Das Programm muss unter Linux (Ubuntu 18 LTS) [laufen]
face-wink
Na und, geht doch mit fast jedem Wind o o f Programm 😁.
Member: StefanKittel
StefanKittel Apr 18, 2020 at 12:12:37 (UTC)
Goto Top
Moin,

nur Windows
keine Commandline
Deren Proxy funktioniert auch nur mit http und nicht mit https

Aber ich bin für Hinweise offen.
Member: stefaan
stefaan Apr 18, 2020 at 19:19:45 (UTC)
Goto Top
Servus,

normalerweise macht man das ja genau umgekehrt, aber einen Versuch wäre es wert (ob es überhaupt so einfach geht): Schalte einen Proxy dazwischen, der als https-Endpunkt dient und per http ausliefert.
Squid und sslbump dürfte in die Richtung gehen.

Grüße, Stefan
Member: StefanKittel
StefanKittel Apr 19, 2020 at 10:45:11 (UTC)
Goto Top
Moin,

kurzes Update.
Ich probiere mich gerade an wget2.

Inzwischen Beta, sehr schnell und auf den 1. Blick zuverlässig.
Nur das Log ist fummelig weil Multithreading-Unsortiert.

Stefan