Ho bisogno di file PDF in testo in modo da poterli cercare in blocco dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o distribuzioni simili?
Forse post correlato, OCR con Ubuntu qui.
Risposta accettata:
Hai molte opzioni!
pdftotext
di poppler è già stato menzionato.
C'è un programma Haskell chiamato pdf2line
che funziona bene.
ebook-convert
di calibre il programma da riga di comando (o lo stesso calibro) è un'altra opzione; può convertire PDF in testo normale o altri formati di ebook (RTF, ePub), secondo me genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.
ebook-convert file.pdf file.txt
AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:
abiword --to=txt file.pdf
Ancora un'altra opzione è podofotextextract
dalla libreria degli strumenti PDF di podofo. Non l'ho mai provato.
Se combini i due strumenti Ghostscript, pdf2ps
e ps2ascii
, hai ancora un'altra opzione.
In realtà posso pensare a qualche altro metodo, ma per ora lo lascerò. 😉