Cet article a été publié dans le cadre de la Blogathon sur la science des données
introduction
La parole est le moyen de communication le plus typique et aussi la plupart de la population dans le monde s'appuie sur la parole pour se parler.. Un système d'accréditation vocale traduit les langues parlées en texte. Il existe plusieurs exemples réels de systèmes d'accréditation vocale. par exemple, Apple SIRI reconnaît la parole et la tronque en texte. El sistema Speech-To-Text (STT) prendre une émission de voix humaine en entrée et une chaîne de mots est nécessaire en sortie. Le seul but de ce système est d'extraire, caractériser et reconnaître des informations sur la parole.
TENEUR
1.Schéma fonctionnel du système
2.Comment fonctionne l'accréditation vocale?
3.Convertir un fichier audio en texte
4. Que diriez-vous de convertir en différentes langues audio?
5.Microphone à la parole de texte
6.Applications
7. conclusion
Schéma fonctionnel du système
1.Modèle acoustique
Reconnaître la parole, un moteur d'accréditation vocale utilise le modèle acoustique. Pour créer un modèle acoustique, nous devons prendre des enregistrements audio du discours et de ses transcriptions textuelles, et nous utilisons un logiciel pour créer des représentations statistiques des sons qui composent chaque mot.
2.Modèle de langue
Un modèle de langage est un fichier qui comprend les probabilités de séquences de mots. Nous utilisons des modèles de langage pour les applications de dictée, tandis que les grammaires sont utilisées dans des applications de type réponse vocale interactive (SVI) ou commande et contrôle de bureau ou téléphonie.
3.Moteur vocal
Un moteur vocal est le cœur du système d'accréditation vocale. C'est le logiciel qui donne à votre ordinateur la possibilité de reproduire du texte en voix parlée (communément appelé text-to-speech ou TTS).
Comment fonctionne l'accréditation vocale?
Procédure d'accréditation vocale
Procédure d'accréditation vocale Modèle de Markov caché (HMM), les modèles de réseaux de neurones profonds convertissent souvent l'audio en texte.
HMM (MODÈLE MARKOV CACHÉ) est le modèle statistique qui a produit la sortie sous la forme d'une séquence de symboles ou de quantités. La justification de l'utilisation des HMM comme outil d'accréditation vocale est leur capacité à traiter l'accréditation vocale comme un signal stationnaire fragmentaire ou un signal stationnaire de courte durée.. Sur une courte échelle de temps (par exemple, 10 millisecondes), la parole peut être approchée comme une procédure stationnaire.
Dans ce blog, Je démontre un moyen de convertir la parole en texte en utilisant python. Cela se fera à l'aide de l'API “Accréditation vocale” et la bibliothèque “PyAudio”. L'API d'accréditation vocale prend en charge plusieurs API, Au cours de ce blog, j'ai utilisé l'API Google Voice Accreditation.
Bibliothèques Python
!pip installer SpeechRecognition
Convertir un fichier audio en texte
Voici les prochaines étapes pour convertir des fichiers audio en texte:
Pas:
Importer la bibliothèque d'accréditation vocale
Initialisation de la classe de reconnaissance pour reconnaître la parole. Nous utilisons l'accréditation vocale Google.
Les fichiers audio compatibles avec un système d'authentification vocale incluent wav, AIFF, AIFF-C, FLAC. j'ai utilisé le 'wav’ entrer dans cette instance.
Ici, nous utilisons les clips audio du film « Taken’ que dit-il “Je ne sais pas qui tu es, Je ne sais pas ce qui vous intéresserait si vous cherchez un sauvetage. Je peux te dire que je n'ai pas d'argent”.
Par défaut, reconnaissance google lit en anglais.
Code
#importer la bibliothèque importer la reconnaissance vocale en tant que sr # Initialiser la classe de reconnaissance (pour reconnaître la parole) r = sr.Recognizer() # Lecture du fichier audio en tant que source # écouter le fichier audio et stocker dans la variable audio_text avec sr.AudioFile('Je-ne-sais-pas.wav') comme source: audio_text = r.écouter(la source) # si l'API est inaccessible, le recoginize_() la méthode lancera une erreur de requête, donc en utilisant la gestion des exceptions essayer: # utiliser la reconnaissance vocale google text = r.recognize_google(texte_audio) imprimer('Conversion des transcriptions audio en texte...') imprimer(texte) sauf: imprimer('Désolé.. courir à nouveau...')
Production
Que diriez-vous de convertir en différentes langues audio?
L'anglais est l'une des langues les plus courantes. Mais, Et si nous voulons convertir à partir de différentes langues comme, allemand et français? À partir de ce système Speech-To-Text (STT), peut convertir votre voix de n'importe quelle langue en texte. Voyons comment
Par exemple, si on veut lire un fichier audio en français, alors nous devons ajouter une option de langue dans recogonize_google. Le code restant reste le même.
#Ajout de l'option langue française text = r.recognize_google(texte_audio, langue = "F RFR")
Production
Encore, l'option de langue requise est ajoutée dans Recogn_google () pour l'accréditation linguistique. je parle en tamoul, Langues indiennes et ajout “de l'IN” dans l'option langue.
# Ajouter "langue tamoule" imprimer("Texte: "+r.recognize_google(texte_audio, langue = "ta-IN"))
j'ai juste dit “comment ça va” en tamoul et imprimer le texte tamoul avec précision.
Production
Voix du microphone dans le texte
Les microphones sont utilisés pour recevoir l'audio en entrée des utilisateurs. Il existe de nombreuses bibliothèques différentes disponibles pour convertir la parole du microphone en texte. Ici, nous utilisons PyAudio pour cette conversion.
Pas:
Nous devons installer la bibliothèque PyAudio qui est utilisée pour recevoir l'entrée et la sortie audio via le microphone et le haut-parleur. Aide à extraire notre voix à travers le microphone.
! pip instalar PyAudio
Nous devons utiliser la classe Microphone, au lieu d'une source de fichier audio. Les étapes restantes sont les mêmes.
Code
#importer la bibliothèque importer la reconnaissance vocale en tant que sr # Initialiser la classe de reconnaissance (pour reconnaître la parole) r = sr.Recognizer() # Lecture du microphone comme source # écouter le discours et stocker dans la variable audio_text avec sr.Microphone() comme source: imprimer("Parlez") audio_text = r.écouter(la source) imprimer("Temps écoulé, Merci") # reconnaître_() La méthode lancera une erreur de requête si l'API est inaccessible, donc en utilisant la gestion des exceptions essayer: # utiliser la reconnaissance vocale google imprimer("Texte: "+r.recognize_google(texte_audio)) sauf: imprimer("Désolé, je n'ai pas compris cela")
Je viens de parler “Comment ça va?”
Production
APPLICATIONS
Systèmes dans la voiture
Les soins de santé
Militaire
Formation des contrôleurs aériens
Téléphonie et autres domaines
Utilisation dans l'éducation et la vie quotidienne.
conclusion:
L'API Google Speech Accreditation est un moyen simple de convertir la parole en texte, mais il a besoin d'une connexion en ligne pour fonctionner. Dans ce blog, nous avons vu un moyen de convertir la parole en texte à l'aide de l'API d'accréditation vocale de Google. Cela peut être très utile pour les projets PNL., en particulier pour le traitement des données de transcriptions audio. Si vous avez quelque chose à signaler, N'hésitez pas à laisser un commentaire! Merci pour la lecture. Continuez à apprendre et restez à l'écoute pour plus!!
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.