GNU/Linux >> Linux Esercitazione >  >> Linux

ottieni un browser reso html + javascript

  • Selenium:soluzione molto completa con collegamenti in molte lingue
  • puppeteer:API di Chrome headless, utilizzabile in NodeJS o come strumento da riga di comando
  • HTtrack:strumento a riga di comando
  • Apache Notch e webmagic:web crawler Java open source
  • pholcus :web crawler "distribuito e ad alta concorrenza" scritto in Go
  • Xvfb un server di visualizzazione che implementa il protocollo del server di visualizzazione X11, senza mostrare alcun output dello schermo. L'ho usato con successo con Travis CI e Goniometro come esempio. Alternativa:XDummy
  • PhantomJS (suggerito per la prima volta da nvuono):può esportare la pagina renderizzata come non HTML (pdf, png...). Lo sviluppo di PhantomJS è sospeso fino a nuovo avviso (maggiori dettagli). Strettamente correlati:SlimerJS, CasperJS

E ci sono molte librerie di web scraping Python:

  • Raschiato
  • pyspider
  • ghost.py
  • scheggia

Prova phantomjs da www.phantomjs.org e puoi facilmente modificare il rasterize.js incluso per esportare l'HTML renderizzato. È basato su webkit e fa una valutazione completa del javascript del tuo sito di destinazione, permettendoti di regolare i timeout o eseguire prima il tuo codice, se lo desideri. Lo uso personalmente per salvare la versione cartacea del file HTML dei modelli knockout.js completamente renderizzati.

Esegue javascript quindi ho appena fatto qualcosa di simile e ho salvato l'output della console in un file:

var markup = page.evaluate(function(){return document.documentElement.innerHTML;});
console.log(markup);
phantom.exit();

Linux
  1. Come installare Chromium Web Browser su RHEL7 Linux

  2. 10 browser Web leggeri e open source per Linux

  3. Come cancellare la cache del browser Web dalla riga di comando in Linux

  4. I 5 migliori browser web 2021

  5. Pale Moon:un browser Web multipiattaforma ottimizzato per l'efficienza

Browser di file:un elegante gestore di file Web multipiattaforma

Come installare Opera Web Browser su Ubuntu 20.04

Come installare il browser Web Chromium su Debian 10

Come installare Opera Web Browser su CentOS 7

Come installare Opera Web Browser su Ubuntu 22.04

Secure Shell:client ssh del browser Web Chrome