Usa w3m -dump <page.html>
.
Ti darà la rappresentazione testuale del file html.
Dalla pagina man:
-dump dump formatted page into stdout
Anche se dice formatted
, l'output è solo testo normale.
html2text è uno script Python che converte una pagina di HTML in testo strutturato Markdown equivalente. html2text può essere scaricato ed eseguito in qualsiasi sistema operativo in cui è installato Python. Il programma html2text si trova nei repository di molte distribuzioni Linux e può essere eseguito dalla riga di comando in questo modo:
html2text -style pretty input.html
Questo comando non solo converte il file html originale in testo, ma fa anche un ottimo lavoro nel rendere l'output di testo semplice facile da leggere. Le intestazioni sembrano intestazioni, le liste sembrano liste, ecc.
Se hai problemi con la conversione automatica delle tabelle da pagine web a testo non formattato, questo può essere fatto facilmente con un moderno editor markdown come Typora o le applicazioni Mark Text GUI per Windows/Mac/Linux. Confrontando queste due applicazioni Mark Text è migliore di Typora nel catturare accuratamente tutto su una pagina web e Typora ha un editor più user-friendly, quindi utilizzo entrambe le applicazioni. Uso Mark Text come cattura di pagine web, quindi copio/incollo il testo markdown che ho catturato in Typora e uso Typora per modificarlo.
Come menzionato da Gombai Sándor, in un commento alla risposta di NZD:
lynx -dump -nolist -nomargins
Quando viene eseguito dalla riga di comando con un URL, scrive l'output su stdout. Questo sembra funzionare molto bene. -nomargins
potrebbe non essere supportato se si ha accesso solo a una versione precedente di lynx
(ovvero Lynx versione 2.8.5rel.5 (29 ottobre 2005) su un vecchio UNIX).
L'output appare abbastanza privo di markup e collegamenti, con alcune potenziali eccezioni (il seguente elenco potrebbe non essere tipico o esaustivo):
- Sembra che ci siano spazi vuoti extra nei dati tabulari e, almeno in alcuni casi, mentre lo spazio bianco è solitamente utile per estrarre i dati tabulari, a volte è incoerente in modi che complicano l'analisi.
- Anche se i collegamenti non vengono scaricati, potrebbe essere visualizzato del testo visibile. Ad esempio, i riferimenti alle note a piè di pagina possono essere visualizzati come asterischi o, su un wiki, gli elementi selezionabili possono essere visualizzati come testo normale equivalente (senza URL sottostante).
- Alcuni riferimenti possono espandersi e restituire il testo alternativo.
- Elenchi non ordinati scaricati con asterischi e indentazione.
- Elenchi di ordini scaricati con numeri e rientri.
- I campi di input possono apparire come caratteri di sottolineatura