GNU/Linux >> Linux Esercitazione >  >> Linux

Come estraggo tutti i link esterni di una pagina web e li salvo in un file?

Avrai bisogno di 2 strumenti, lynx e awk , prova questo:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Se hai bisogno di linee di numerazione, usa il comando nl , prova questo:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Ecco un miglioramento della risposta di lelton:non hai affatto bisogno di awk perché lynx ha alcune opzioni utili.

lynx -listonly -nonumbers -dump http://www.google.com.br

se vuoi i numeri

lynx -listonly -dump http://www.google.com.br

Linux
  1. Come salvare i comandi Linux e usarli su richiesta

  2. La differenza tra collegamenti simbolici e hard?

  3. Cosa sono i collegamenti simbolici (Soft Link) e come crearli sotto Linux

  4. Come salvare l'output di questo comando awk su file?

  5. Come estrarre e/o rimuovere l'ultima pagina di un mucchio di PDF?

Comprendere i percorsi dei file e come usarli in Linux

Come ottenere la data e l'ora correnti in Python

Come usare Sudo e il file Sudoers

Come salvare un file in Vim/Vi e uscire dall'editor

Come salvare un file in Vi / Vim e uscire dall'editor

Come registrare l'audio e salvarlo come file MP3 usando Audacity