Conversion parole en texte: une application PNL

Contenu

Cet article a été publié dans le cadre de la Blogathon sur la science des données

introduction

La parole est le moyen de communication le plus typique et aussi la plupart de la population dans le monde s'appuie sur la parole pour se parler.. Un système d'accréditation vocale traduit les langues parlées en texte. Il existe plusieurs exemples réels de systèmes d'accréditation vocale. par exemple, Apple SIRI reconnaît la parole et la tronque en texte. El sistema Speech-To-Text (STT) prendre une émission de voix humaine en entrée et une chaîne de mots est nécessaire en sortie. Le seul but de ce système est d'extraire, caractériser et reconnaître des informations sur la parole.

TENEUR

1.Schéma fonctionnel du système

2.Comment fonctionne l'accréditation vocale?

3.Convertir un fichier audio en texte

4. Que diriez-vous de convertir en différentes langues audio?

5.Microphone à la parole de texte

6.Applications

7. conclusion

Schéma fonctionnel du système

schéma fonctionnel du système |  conversion de la parole en texte

La source

1.Modèle acoustique

Reconnaître la parole, un moteur d'accréditation vocale utilise le modèle acoustique. Pour créer un modèle acoustique, nous devons prendre des enregistrements audio du discours et de ses transcriptions textuelles, et nous utilisons un logiciel pour créer des représentations statistiques des sons qui composent chaque mot.

2.Modèle de langue

Un modèle de langage est un fichier qui comprend les probabilités de séquences de mots. Nous utilisons des modèles de langage pour les applications de dictée, tandis que les grammaires sont utilisées dans des applications de type réponse vocale interactive (SVI) ou commande et contrôle de bureau ou téléphonie.

3.Moteur vocal

Un moteur vocal est le cœur du système d'accréditation vocale. C'est le logiciel qui donne à votre ordinateur la possibilité de reproduire du texte en voix parlée (communément appelé text-to-speech ou TTS).

Comment fonctionne l'accréditation vocale?

Chiffre |  conversión de voz a texto |  conversion de la parole en texte

Procédure d'accréditation vocale

Procédure d'accréditation vocale Modèle de Markov caché (HMM), les modèles de réseaux de neurones profonds convertissent souvent l'audio en texte.

HMM (MODÈLE MARKOV CACHÉ) est le modèle statistique qui a produit la sortie sous la forme d'une séquence de symboles ou de quantités. La justification de l'utilisation des HMM comme outil d'accréditation vocale est leur capacité à traiter l'accréditation vocale comme un signal stationnaire fragmentaire ou un signal stationnaire de courte durée.. Sur une courte échelle de temps (par exemple, 10 millisecondes), la parole peut être approchée comme une procédure stationnaire.

Livre de codes HMM

La source

Dans ce blog, Je démontre un moyen de convertir la parole en texte en utilisant python. Cela se fera à l'aide de l'API “Accréditation vocale” et la bibliothèque “PyAudio”. L'API d'accréditation vocale prend en charge plusieurs API, Au cours de ce blog, j'ai utilisé l'API Google Voice Accreditation.

Bibliothèques Python

!pip installer SpeechRecognition

Convertir un fichier audio en texte

Voici les prochaines étapes pour convertir des fichiers audio en texte:

Pas:

  1. Importer la bibliothèque d'accréditation vocale

  2. Initialisation de la classe de reconnaissance pour reconnaître la parole. Nous utilisons l'accréditation vocale Google.

  3. Les fichiers audio compatibles avec un système d'authentification vocale incluent wav, AIFF, AIFF-C, FLAC. j'ai utilisé le 'wav’ entrer dans cette instance.

  4. Ici, nous utilisons les clips audio du film « Taken’ que dit-il “Je ne sais pas qui tu es, Je ne sais pas ce qui vous intéresserait si vous cherchez un sauvetage. Je peux te dire que je n'ai pas d'argent”.

  5. Par défaut, reconnaissance google lit en anglais.

Code

#importer la bibliothèque
importer la reconnaissance vocale en tant que sr
# Initialiser la classe de reconnaissance (pour reconnaître la parole)
r = sr.Recognizer()
# Lecture du fichier audio en tant que source
# écouter le fichier audio et stocker dans la variable audio_text
avec sr.AudioFile('Je-ne-sais-pas.wav') comme source:
    audio_text = r.écouter(la source)
# si l'API est inaccessible, le recoginize_() la méthode lancera une erreur de requête, donc en utilisant la gestion des exceptions
    essayer:
        # utiliser la reconnaissance vocale google
        text = r.recognize_google(texte_audio)
        imprimer('Conversion des transcriptions audio en texte...')
        imprimer(texte)
    sauf:
         imprimer('Désolé.. courir à nouveau...')

Production

sortie1 |  conversion de la parole en texte

Que diriez-vous de convertir en différentes langues audio?

L'anglais est l'une des langues les plus courantes. Mais, Et si nous voulons convertir à partir de différentes langues comme, allemand et français? À partir de ce système Speech-To-Text (STT), peut convertir votre voix de n'importe quelle langue en texte. Voyons comment

Par exemple, si on veut lire un fichier audio en français, alors nous devons ajouter une option de langue dans recogonize_google. Le code restant reste le même.

#Ajout de l'option langue française
text = r.recognize_google(texte_audio, langue = "F RFR")

Production

Sortir 2

Encore, l'option de langue requise est ajoutée dans Recogn_google () pour l'accréditation linguistique. je parle en tamoul, Langues indiennes et ajout “de l'IN” dans l'option langue.

# Ajouter "langue tamoule"
imprimer("Texte: "+r.recognize_google(texte_audio, langue = "ta-IN"))

j'ai juste dit “comment ça va” en tamoul et imprimer le texte tamoul avec précision.

Production

sortie3

Voix du microphone dans le texte

Les microphones sont utilisés pour recevoir l'audio en entrée des utilisateurs. Il existe de nombreuses bibliothèques différentes disponibles pour convertir la parole du microphone en texte. Ici, nous utilisons PyAudio pour cette conversion.

Pas:

  1. Nous devons installer la bibliothèque PyAudio qui est utilisée pour recevoir l'entrée et la sortie audio via le microphone et le haut-parleur. Aide à extraire notre voix à travers le microphone.

! pip instalar PyAudio

  1. Nous devons utiliser la classe Microphone, au lieu d'une source de fichier audio. Les étapes restantes sont les mêmes.

Code

#importer la bibliothèque
importer la reconnaissance vocale en tant que sr
# Initialiser la classe de reconnaissance (pour reconnaître la parole)
r = sr.Recognizer()
# Lecture du microphone comme source
# écouter le discours et stocker dans la variable audio_text
avec sr.Microphone() comme source:
    imprimer("Parlez")
    audio_text = r.écouter(la source)
    imprimer("Temps écoulé, Merci")
# reconnaître_() La méthode lancera une erreur de requête si l'API est inaccessible, donc en utilisant la gestion des exceptions
    essayer:
        # utiliser la reconnaissance vocale google
        imprimer("Texte: "+r.recognize_google(texte_audio))
    sauf:
         imprimer("Désolé, je n'ai pas compris cela")

Je viens de parler “Comment ça va?”

Production

sortie4

APPLICATIONS

  1. Systèmes dans la voiture

  2. Les soins de santé

  3. Militaire

  4. Formation des contrôleurs aériens

  5. Téléphonie et autres domaines

  6. Utilisation dans l'éducation et la vie quotidienne.

conclusion:

L'API Google Speech Accreditation est un moyen simple de convertir la parole en texte, mais il a besoin d'une connexion en ligne pour fonctionner. Dans ce blog, nous avons vu un moyen de convertir la parole en texte à l'aide de l'API d'accréditation vocale de Google. Cela peut être très utile pour les projets PNL., en particulier pour le traitement des données de transcriptions audio. Si vous avez quelque chose à signaler, N'hésitez pas à laisser un commentaire! Merci pour la lecture. Continuez à apprendre et restez à l'écoute pour plus!!

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.