GNU/Linux >> Linux Esercitazione > >> Linux

Esiste una sorta di convertitore da PDF a testo?

Ho bisogno di file PDF in testo in modo da poterli cercare in blocco dalla riga di comando. Esiste un convertitore per Ubuntu, OBSD o distribuzioni simili?

Forse post correlato, OCR con Ubuntu qui.

Risposta accettata:

Hai molte opzioni!

pdftotext di poppler è già stato menzionato.

C'è un programma Haskell chiamato pdf2line che funziona bene.

ebook-convert di calibre il programma da riga di comando (o lo stesso calibro) è un'altra opzione; può convertire PDF in testo normale o altri formati di ebook (RTF, ePub), secondo me genera risultati migliori rispetto a pdftotext, sebbene sia notevolmente più lento.

ebook-convert file.pdf file.txt

AbiWord può convertire tra tutti i formati che conosce dalla riga di comando e almeno facoltativamente ha un plug-in di importazione PDF:

abiword --to=txt file.pdf

Ancora un'altra opzione è podofotextextract dalla libreria degli strumenti PDF di podofo. Non l'ho mai provato.

Se combini i due strumenti Ghostscript, pdf2ps e ps2ascii , hai ancora un'altra opzione.

In realtà posso pensare a qualche altro metodo, ma per ora lo lascerò. 😉

Dove Xkb ottiene la sua configurazione?

Lo scopo di .bashrc e come funziona?

Linux

Awk one-liner e script per aiutarti a ordinare i file di testo

Editor di testo Geany - una sorta di genio

Esistono compilatori o runtime C "esoterici" (strani) ma conformi agli standard?

Visualizzatore PDF con testo selezionabile?

Ordina i file di testo con più righe come una riga

Esiste un visualizzatore Pdf specializzato per presentazioni Latex-Beamer su Linux?