2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

Scaricare tutte le cartelle, sottocartelle e file usando Wget

Ho usato Wget e mi sono imbattuto in un problema. Ho un sito, che ha diverse cartelle e sottocartelle all'interno del sito. Ho bisogno di scaricare tutto il contenuto di ogni cartella e sottocartella. Ho provato diversi metodi usando Wget, e quando controllo il completamento, tutto ciò che posso vedere nelle cartelle è un file “index”. Posso cliccare sul file di indice e mi porterà ai file, ma ho bisogno dei file veri e propri.

qualcuno ha un comando per Wget che ho trascurato, o c'è un altro programma che potrei usare per ottenere tutte queste informazioni?

esempio di sito:

www.mysite.com/Pictures/ all'interno del DIr Pictures, ci sono diverse cartelle…..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

Ho bisogno di tutti i file, cartelle, ecc…..

Risposte (3)

38
38
38
2013-10-07 16:23:25 +0000

Voglio supporre che tu non abbia provato questo:

wget -r --no-parent http://www.mysite.com/Pictures/

o per recuperare il contenuto, senza scaricare i file “index.html”:

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

Riferimento: Usare wget per recuperare ricorsivamente una directory con file arbitrari al suo interno

20
20
20
2014-12-20 09:22:17 +0000

Uso wget -rkpN -e robots=off http://www.example.com/

-r significa ricorsivamente

-k significa convertire i link. Così i link sulla pagina web saranno localhost invece di example.com/bla

-p significa ottenere tutte le risorse della pagina web quindi ottenere immagini e file javascript per far funzionare correttamente il sito.

-N serve a recuperare i timestamp così se i file locali sono più nuovi dei file sul sito web remoto li salta.

-e è un'opzione di bandiera che deve essere presente perché lo robots=off funzioni.

robots=off significa ignorare il file robots.

Avevo anche -c in questo comando così se la connessione cadeva continuava da dove si era interrotta quando ho rieseguito il comando. Ho pensato che -N andasse bene con -c

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ questo scaricherà tutti i tipi di file localmente e punterà ad essi dal file html e ignorerà il file robots