Sto cercando la stessa cosa da qualche giorno. Finora ho trovato Sphinx4 e FreeTTS. Entrambe sono implementazioni java e Sphinx sembra essere aggiornato piuttosto frequentemente a differenza di FreeTTS. L'unico problema che ho è che Sphinx ha problemi a capirmi in un ambiente d'ufficio e ho bisogno di una soluzione per un ambiente di magazzino.
Principalmente Java:http://cmusphinx.sourceforge.net/html/cmusphinx.php
puoi scaricare vPass (password vocale) da http://www.basic-signalprocessing.com.
I componenti sono progettati per linguaggio Java e .Net. Il periodo di riconoscimento è di 5 secondi. VPass è ben collaudato vText non lo è, è ancora nuovo, ecco perché non è ancora stato impacchettato.
sphinx è di gran lunga la migliore opzione disponibile se hai un budget limitato. Tuttavia è anche enorme differenza quali modelli usi, come li metti a punto e come sintonizzi la tua sorgente audio. assolutamente tutto deve corrispondere altrimenti non funzionerà. dato il problema che hai descritto sarei disposto a scommettere una somma considerevole che hai confuso i tuoi modelli e il tuo microfono non è calibrato correttamente. inoltre, se hai un accento probabilmente non funzionerà - questo non è un problema con il decoder ma con i modelli acustici - se nessuno con una voce/accento simile al tuo è stato incluso nei dati di addestramento otterrai scarsi risultati .
detto questo, hai guardato la loro pagina dei modelli open source?
http://www.speech.cs.cmu.edu/sphinx/models/
a seconda di ciò che stai cercando di fare dovresti essere in grado di ottenere circa il 90% di precisione sulla libertà di parola con i modelli WSJ a 16kHz e il gigaword LMs NVP. Avverto tuttavia che l'ASR è un'impresa imponente e non ha ancora raggiunto lo status di merce.