GNU/Linux >> Linux Esercitazione >  >> Linux

Esiste una sorta di convertitore da PDF a testo?

Ho bisogno di file PDF in testo in modo da poterli cercare in blocco dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o distribuzioni simili?

Forse post correlato, OCR con Ubuntu qui.

Risposta accettata:

Hai molte opzioni!

pdftotext di poppler è già stato menzionato.

C'è un programma Haskell chiamato pdf2line che funziona bene.

ebook-convert di calibre il programma da riga di comando (o lo stesso calibro) è un'altra opzione; può convertire PDF in testo normale o altri formati di ebook (RTF, ePub), secondo me genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.

ebook-convert file.pdf file.txt

AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:

abiword --to=txt file.pdf

Ancora un'altra opzione è podofotextextract dalla libreria degli strumenti PDF di podofo. Non l'ho mai provato.

Se combini i due strumenti Ghostscript, pdf2ps e ps2ascii , hai ancora un'altra opzione.

In realtà posso pensare a qualche altro metodo, ma per ora lo lascerò. 😉


Linux
  1. gImageReader – Estrai testo da immagini e PDF in Linux

  2. Come estrarre il testo con OCR da un PDF su Linux?

  3. Come sostituire una singola pagina in un pdf utilizzando un altro pdf in Linux?

  4. Strumenti per estrarre il testo da PowerPoint pptx in Linux?

  5. Come posso rasterizzare tutto il testo in un PDF?

Awk one-liner e script per aiutarti a ordinare i file di testo

Editor di testo Geany - una sorta di genio

Esistono compilatori o runtime C "esoterici" (strani) ma conformi agli standard?

Visualizzatore PDF con testo selezionabile?

Ordina i file di testo con più righe come una riga

Esiste un visualizzatore Pdf specializzato per presentazioni Latex-Beamer su Linux?