GNU/Linux >> Linux Esercitazione >  >> Linux

Da HTML a testo normale NON FORMATTATO?

Usa w3m -dump <page.html> .

Ti darà la rappresentazione testuale del file html.

Dalla pagina man:

-dump  dump formatted page into stdout

Anche se dice formatted , l'output è solo testo normale.


html2text è uno script Python che converte una pagina di HTML in testo strutturato Markdown equivalente. html2text può essere scaricato ed eseguito in qualsiasi sistema operativo in cui è installato Python. Il programma html2text si trova nei repository di molte distribuzioni Linux e può essere eseguito dalla riga di comando in questo modo:

html2text -style pretty input.html  

Questo comando non solo converte il file html originale in testo, ma fa anche un ottimo lavoro nel rendere l'output di testo semplice facile da leggere. Le intestazioni sembrano intestazioni, le liste sembrano liste, ecc.

Se hai problemi con la conversione automatica delle tabelle da pagine web a testo non formattato, questo può essere fatto facilmente con un moderno editor markdown come Typora o le applicazioni Mark Text GUI per Windows/Mac/Linux. Confrontando queste due applicazioni Mark Text è migliore di Typora nel catturare accuratamente tutto su una pagina web e Typora ha un editor più user-friendly, quindi utilizzo entrambe le applicazioni. Uso Mark Text come cattura di pagine web, quindi copio/incollo il testo markdown che ho catturato in Typora e uso Typora per modificarlo.


Come menzionato da Gombai Sándor, in un commento alla risposta di NZD:

lynx -dump -nolist -nomargins

Quando viene eseguito dalla riga di comando con un URL, scrive l'output su stdout. Questo sembra funzionare molto bene. -nomargins potrebbe non essere supportato se si ha accesso solo a una versione precedente di lynx (ovvero Lynx versione 2.8.5rel.5 (29 ottobre 2005) su un vecchio UNIX).

L'output appare abbastanza privo di markup e collegamenti, con alcune potenziali eccezioni (il seguente elenco potrebbe non essere tipico o esaustivo):

  • Sembra che ci siano spazi vuoti extra nei dati tabulari e, almeno in alcuni casi, mentre lo spazio bianco è solitamente utile per estrarre i dati tabulari, a volte è incoerente in modi che complicano l'analisi.
  • Anche se i collegamenti non vengono scaricati, potrebbe essere visualizzato del testo visibile. Ad esempio, i riferimenti alle note a piè di pagina possono essere visualizzati come asterischi o, su un wiki, gli elementi selezionabili possono essere visualizzati come testo normale equivalente (senza URL sottostante).
  • Alcuni riferimenti possono espandersi e restituire il testo alternativo.
  • Elenchi non ordinati scaricati con asterischi e indentazione.
  • Elenchi di ordini scaricati con numeri e rientri.
  • I campi di input possono apparire come caratteri di sottolineatura

Linux
  1. python converte i documenti di Microsoft Office in testo normale su Linux

  2. Come convertire l'output della shell di Linux in HTML?

  3. Come possiamo memorizzare password diverse dal testo normale?

  4. Come eseguo l'output di testo colorato su un terminale Linux?

  5. ottenere sorgenti HTML o rich text dagli appunti di X

Esegui il ping di più server e mostra l'output nell'interfaccia utente di testo simile a quella superiore

Come salvare l'output dei comandi di Linux in un'immagine o in un file di testo

Scripting Bash:come scrivere dati su file di testo

Cerca testo sull'output del terminale?

Bash Scripting:come generare e formattare il testo su Linux Shell

I migliori editor di testo Linux:i 20 editor di testo e HTML recensiti