GNU/Linux >> Linux Esercitazione > >> Linux

gImageReader – Estrai testo da immagini e PDF in Linux

gImageReader è un lettore PDF gratuito e open source con la possibilità di estrarre testo da immagini e PDF. È costruito come un semplice front-end Gtk/Qt per Tesseract-OCR , un motore OCR open source per il riconoscimento di testi e schemi in documenti e immagini utilizzando l'Intelligenza Artificiale .

Di per sé, Tesseract è uno strumento da riga di comando limitato all'uso da parte di utenti Linux che hanno abbastanza familiarità con i loro terminali. Grazie a gImageReader , ora tutti possono sfruttare l'efficienza dell'OCR del motore.

gImageReader funziona eseguendo la scansione di testi da PDF o file immagine in una delle numerose lingue supportate grazie all'esistenza di caratteri Unicode. È dotato di un'interfaccia utente personalizzabile semplice e ben organizzata attraverso la quale è possibile eseguire attività di controllo ortografico e di traduzione.

Funzioni in gImageReader

Software gratuito e open source. Codice sorgente disponibile su GitHub.
Disponibile su piattaforme GNU/Linux e Windows.
Interfaccia utente con temi con layout di modifica familiare.
Importa documenti PDF e immagini da disco, scansiona dispositivi, schermate e appunti.
Genera documenti PDF da documenti hOCR.
Definizione dell'area di riconoscimento manuale o automatico.
Elabora più immagini e documenti in batch.
Riconoscimento in documenti hOCR o in testo normale.
Testo riconosciuto visualizzato accanto alle immagini.
Post-elabora il testo riconosciuto, incluso il controllo ortografico.

gImageReader è facile da usare e supporta il lavoro con i documenti in formato cartaceo, nonché le istantanee dei media caricati, ad es. schermate. Hai anche la possibilità di selezionare l'area di testo che ti interessa e aggiungere solo il testo che ti serve. Infine, gImagereader funziona sia come lettore PDF che come strumento di estrazione del testo. Roba di sciocchezze.

Installa gImageReader su Linux

Per utilizzare gImageReader al massimo, devi installare manualmente Tesseract language pack in modo da poter analizzare correttamente immagini e file. Il pacchetto si chiama "Tesserac-ocr-eng ' ed è disponibile dal software manager in Debian e Fedora distribuzioni.

Se stai utilizzando Ubuntu , puoi semplicemente aggiungere il PPA ed esegui il comando di installazione utilizzando i comandi seguenti:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

Su Debian , Fedora e OpenSUSE installalo dal gestore pacchetti.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Non sentirti escluso se stai utilizzando Arch Linux o uno qualsiasi dei suoi derivati. L'AUR ti ha coperto. E se preferisci ricostruire l'app dal sorgente, le istruzioni sono nel link Wiki del repository GitHub.

Sei uno che estrae testo stampato dalle immagini? Puoi persino scattare istantanee di aree selezionate con il tuo telefono e caricarle sul tuo laptop. Ciò che è ancora più interessante è il supporto multilingue, che sebbene non sia perfetto, è già una delle migliori opzioni della community in questo momento.

gImageReader è tra i migliori lettori di PDF nel mondo open source, in particolare con la sua capacità OCR, quindi provalo e guarda come ti piace.

Come al solito, puoi condividere con noi le tue esperienze con l'app, se ne hai. E per aggiungere altri suggerimenti nella sezione commenti qui sotto.

Vem Text Editor – Un layout di comando alternativo per Vim

Peek:un semplice registratore di schermate gif animate per Linux

Linux

Come creare directory da un file di testo in Linux

Come rimuovere la password da un file PDF in Linux

Come estrarre indirizzi e-mail da file di testo in Linux

Come creare un video da immagini in Linux

Come estrarre l'audio dal video in Ubuntu e altre distribuzioni Linux

Come convertire PDF in immagini PNG e viceversa in Linux