Voglio scaricare il codice sorgente HTML completo di una X pagina web, tuttavia arricciando il collegamento X restituirà un codice sorgente HTML parziale poiché quella pagina web richiede lo scorrimento per vedere ulteriori contenuti. Sembra che il ricciolo non vada oltre lo "scorrimento verso il basso".
Finora, posso farlo solo manualmente:
1) Vai al sito Web desiderato
2) Esegui il seguente comando nella console del browser per eseguire lo scorrimento automatico (carica ogni oggetto):
var scroll =setInterval(function(){ window.scrollBy(0,1000); }, 2000);
3) Copia il codice sorgente HTML completo dall'elemento inspect
Quindi la domanda è:come posso eseguire curl
comando in modo da raschiare l'intero contenuto della pagina Web (scorre fino a caricare tutti gli oggetti) prima di emetterlo sul terminale per ottenere lo stesso risultato dei passaggi sopra menzionati? Se non con curl
, forse wget
?
Risposta accettata:
curl
non è un browser completo e per quanto ne so non supporta l'esecuzione di JavaScript. Utilizza HTTP/FTP per recuperare i file; questo è tutto. Se desideri eseguire test di funzionalità che dipendono da script o altri strumenti che una semplice richiesta HTTP non è in grado di toccare, dovrai esaminare una suite di test più approfondita come Selenium.