GNU/Linux >> Linux Esercitazione >  >> Linux

Strumenti per estrarre il testo da PowerPoint pptx in Linux?

Se puoi elaborare i file in bash , questo one-liner decomprimerà tutto il testo:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Basta passargli il file pptx come $1 , e scriverà il testo nel file $2 . Il contenuto di ogni diapositiva non verrà visualizzato in ordine di presentazione e non ci saranno etichette o altro, quindi avrai bisogno di qualche riga in più di script e di una directory temporanea per ottenere un elenco più leggibile.


Dato che hai installato Abiword, puoi semplicemente creare prima un PDF

libreoffice --headless --convert-to pdf filename.pptx

E poi usa abiword per convertire il pdf in txt

abiword --to=txt filename.pdf 

Linux
  1. Come creare un video da file PDF in Linux

  2. I miei 5 strumenti di amministrazione di sistema Linux preferiti

  3. Modificare una posta in arrivo da testo/normale a testo/html?

  4. gImageReader – Estrai testo da immagini e PDF in Linux

  5. Come estrarre la parte di testo di un file binario in linux/bash?

Come creare directory da un file di testo in Linux

Come rimuovere la password da un file PDF in Linux

Come visualizzare i dati da un file di testo in Linux

Strumenti Linux:du vs. df

Come estrarre indirizzi e-mail da file di testo in Linux

Come unire file PDF utilizzando gli strumenti GUI e CLI in Linux