Conversione vocale in testo: un'app per la PNL

Contenuti

Questo post è stato pubblicato come parte del Blogathon sulla scienza dei dati

introduzione

La parola è il mezzo di comunicazione più tipico e anche la maggior parte della popolazione nel mondo si affida alla parola per parlare tra di loro. Un sistema di accreditamento vocale traduce le lingue parlate in testo. Esistono diversi esempi reali di sistemi di accreditamento vocale. come esempio, Apple SIRI riconosce il parlato e lo tronca in testo. Il sistema Speech-To-Text (STT) prendere un'emissione di voce umana come input ed è necessaria una stringa di parole come output. L'unico scopo di questo sistema è estrarre, caratterizzare e riconoscere le informazioni sul discorso.

CONTENUTO

1.Schema a blocchi del sistema

2.Come funziona l'accredito vocale??

3.Converti un file audio in testo

4. Che ne dici di convertire in diverse lingue audio??

5.Dal microfono al testo vocale

6.Applicazioni

7. conclusione

Schema a blocchi del sistema

schema a blocchi di sistema |  conversione da discorso a testo

Fonte

1.Modello acustico

Riconoscere la parola, un motore di accreditamento vocale utilizza il modello acustico. Per creare un modello acustico, dobbiamo prendere registrazioni audio del discorso e le sue trascrizioni di testo, e usiamo software per creare rappresentazioni statistiche dei suoni che compongono ogni parola.

2.Modello linguistico

Un modello linguistico è un file che include le probabilità di sequenze di parole. Utilizziamo modelli linguistici per le applicazioni di dettatura, mentre le grammatiche vengono utilizzate nelle applicazioni di tipo a risposta vocale interattiva (IVR) o comando e controllo desktop o telefonia.

3.Motore vocale

Un motore vocale è il cuore del sistema di accreditamento vocale. Questo è il software che dà al tuo computer la capacità di riprodurre il testo con la voce parlata (comunemente noto come sintesi vocale o TTS).

Come funziona l'accredito vocale??

Figura |  conversión de voz a texto |  conversione da discorso a testo

Procedura di accreditamento vocale

Procedura di accreditamento vocale Modello Markov nascosto (HMM), i modelli di reti neurali profonde spesso convertono l'audio in testo.

HMM (MODELLO MARKOV NASCOSTO) è il modello statistico che ha prodotto l'output come sequenza di simboli o quantità. La logica alla base dell'uso degli HMM come strumento di accreditamento vocale è la loro capacità di trattare l'accreditamento vocale come un segnale stazionario in parti o un segnale stazionario di breve durata.. In breve tempo (come esempio, 10 millisecondi), il discorso può essere approssimato come una procedura stazionaria.

Codice HMM

Fonte

In questo blog, Sto dimostrando un modo per convertire la voce in testo usando Python. Questo sarà fatto con l'aiuto dell'API “Accreditamento vocale” e la biblioteca “PyAudio”. L'API di accreditamento vocale supporta più API, Durante questo blog ho utilizzato l'API di Google Voice Accreditation.

Librerie Python

!pip install SpeechRecognition

Converti un file audio in testo

Ecco i prossimi passi per convertire i file audio in testo:

Passi:

  1. Importa libreria di accreditamento vocale

  2. Inizializzazione della classe di riconoscimento per riconoscere il parlato. Stiamo utilizzando l'accreditamento vocale di Google.

  3. I file audio compatibili con un sistema di credenziali vocali includono wav, AIFF, AIFF-C, FLAC. Usé el ‘wavpara entrar en esta instancia.

  4. Aquí usamos los clips de audio de la película ‘Taken’ cosa dice “No sé quién eres, no sé qué te interesaría si buscas un rescate. Puedo decirte que no tengo dinero”.

  5. Per impostazione predefinita, el reconocedor de Google lee en inglés.

Codice

#import library
import speech_recognition as sr
# Initialize recognizer class (for recognizing the speech)
r = sr.Recognizer()
# Reading Audio file as source
# listening to the audio file and store in audio_text variable
with sr.AudioFile('I-dont-know.wav') as source:
    audio_text = r.listen(fonte)
# if the API is unreachable, the recoginize_() method will throw a request error, hence using exception handling
    try:
        # using google speech recognition
        text = r.recognize_google(audio_text)
        Stampa('Converting audio transcripts into text ...')
        Stampa(testo)
    tranne:
         Stampa('Sorry.. run again...')

Produzione

salida1 |  conversione da discorso a testo

Che ne dici di convertire in diverse lingue audio??

El inglés es uno de los idiomas más comunes. Ma, ¿qué pasa si queremos convertir de diferentes idiomas como, alemán y francés? Desde este sistema Speech-To-Text (STT), puede convertir su voz de cualquier idioma a texto. Vamos a ver como

Come esempio, si queremos leer un archivo de audio en francés, entonces necesitamos agregar una opción de idioma en recogonize_google. El código restante sigue siendo el mismo.

#Adding french language option
text = r.recognize_google(audio_text, language = "fr-FR")

Produzione

Uscita 2

Ancora, la opción de idioma requerida se agrega en Recogn_google () para el acreditación de idioma. Estoy hablando en tamil, idiomas indios y agregandota-INen la opción de idioma.

# Adding "Tamil language"
Stampa(“Text: “+r.recognize_google(audio_text, language = “ta-IN”))

Ho appena detto “cómo estás” in Tamil e stampa accuratamente il testo Tamil.

Produzione

uscita3

Voce del microfono nel testo

I microfoni vengono utilizzati per ricevere l'audio come input dagli utenti. Sono disponibili molte librerie diverse per convertire il parlato del microfono in testo. Qui usiamo PyAudio per questa conversione.

Passi:

  1. Dobbiamo installare la libreria PyAudio che viene utilizzata per ricevere l'ingresso e l'uscita audio attraverso il microfono e l'altoparlante. Aiuta a estrarre la nostra voce attraverso il microfono.

! pip instalar PyAudio

  1. Tenemos que utilizar la clase Micrófono, en lugar de una fuente de archivo de audio. Los pasos restantes son los mismos.

Codice

#import library
import speech_recognition as sr
# Initialize recognizer class (for recognizing the speech)
r = sr.Recognizer()
# Reading Microphone as source
# listening to the speech and store in audio_text variable
with sr.Microphone() as source:
    Stampa("Talk")
    audio_text = r.listen(fonte)
    Stampa("Time over, thanks")
# recoginize_() method will throw a request error if the API is unreachable, hence using exception handling
    try:
        # using google speech recognition
        print("Testo: "+r.recognize_google(audio_text))
    tranne:
         Stampa("scusate, I did not get that")

Acabo de hablar¿Cómo estás?”

Produzione

salida4

APLICACIONES

  1. Sistemas en el automóvil

  2. Assistenza sanitaria

  3. Militar

  4. Formazione dei controllori del traffico aereo

  5. Telefonia e altri domini

  6. Uso nell'istruzione e nella vita quotidiana.

conclusione:

L'API di accreditamento vocale di Google è un modo semplice per convertire la voce in testo, ma ha bisogno di una connessione online per funzionare. In questo blog, abbiamo visto un modo per convertire la voce in testo utilizzando l'API di accreditamento vocale di Google. Questo può essere molto utile per i progetti di PNL., specialmente per la gestione dei dati delle trascrizioni audio. Se hai qualcosa da segnalare, Sentiti libero di lasciare un commento! Grazie per aver letto. Continua a imparare e resta sintonizzato per saperne di più!!

Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.