Linux - jak stáhnout kompletně celý web včetně podstránek a souborů
Ahoj, používám linux a chtěl bych stáhnout kompletní obsah nějaký web stránek na nějakých doménách. Potřebuji aby tam byly i podstránky včetně souborů na které se na tom webu odkazuje. Je na to nějaký balíček či nástroj pro linux?
Ahoj,
kompletní obsah stránek lze stáhnout pomocí balíčku wget s parametrem "r"
#hloubka stahování je default level 5
Další parametry:
#neomezený level, linky lokální, náhodný timeout
#neomezený level, linky lokální, stahovat pouze obsah podstránky (bez rootu, jen /podstranka (subdir, sublink))
#stažení pouze souborů jpg
Pokud potřebuješ stahovat z nějakého webu, který umí detekovat zda jde požadavek přes wget či přes browser (prohlížeč), zpravidla když dochází k vykreslování javascriptem, tak můžeš použít phantomjs.
ODPOVĚĎ
Ahoj,
kompletní obsah stránek lze stáhnout pomocí balíčku wget s parametrem "r"
wget -r cloud.up4.cz
#hloubka stahování je default level 5
Další parametry:
-l10
- nastavit level 10-k
= předělat linky na lokální-w 60
= timeout 60 vteřin mezi kroky--user-agent="Mozilla/7.0***"
= typ agenta Mozilla/7.0***--mirror
= zrcadelní webu (kopie, backup)-p
= stahovat pouze nutný obsah k fungování webu-P /tmp/web
= stahovat obsah do /tmp/webwget -r -l inf -k --random-wait cloud.up4.cz
#neomezený level, linky lokální, náhodný timeout
wget -r -l inf -k --no-parent cloud.up4.cz/podstranka
#neomezený level, linky lokální, stahovat pouze obsah podstránky (bez rootu, jen /podstranka (subdir, sublink))
wget -A "*.jpg" -r cloud.up4.cz
#stažení pouze souborů jpg
Pokud potřebuješ stahovat z nějakého webu, který umí detekovat zda jde požadavek přes wget či přes browser (prohlížeč), zpravidla když dochází k vykreslování javascriptem, tak můžeš použít phantomjs.