Konvertierung von Sprache in Text: ein NLP-Antrag

Inhalt

Dieser Beitrag wurde im Rahmen der . veröffentlicht Data Science Blogathon

Einführung

Sprache ist das typischste Kommunikationsmittel und auch der größte Teil der Bevölkerung der Welt verlässt sich auf Sprache, um miteinander zu sprechen. Ein Sprachakkreditierungssystem übersetzt gesprochene Sprachen in Text. Es gibt mehrere Beispiele aus der Praxis von Sprachakkreditierungssystemen. als Beispiel, Apple SIRI erkennt Sprache und kürzt sie in Text. El sistema Speech-to-Text (STT) nimm eine menschliche Stimme Emission als Eingabe und als Ausgabe wird eine Wortfolge benötigt. Der einzige Zweck dieses Systems ist die Extraktion, Informationen über Sprache charakterisieren und erkennen.

INHALT

1.Systemblockdiagramm

2.Wie funktioniert die Sprachakkreditierung?

3.Konvertieren einer Audiodatei in Text

4. Wie wäre es mit der Konvertierung in verschiedene Audiosprachen??

5.Mikrofon zu Textsprache

6.Anwendungen

7. Fazit

Systemblockdiagramm

Systemblockdiagramm |  Konvertierung von Sprache in Text

Quelle

1.Akustikmodell

Sprache erkennen, eine Sprachakkreditierungs-Engine verwendet das akustische Modell. So erstellen Sie ein akustisches Modell, wir müssen Audioaufnahmen von Sprache und ihren Texttranskripten machen, und wir verwenden Software, um statistische Darstellungen der Laute zu erstellen, aus denen jedes Wort besteht.

2.Sprachmodell

Ein Sprachmodell ist eine Datei, die die Wahrscheinlichkeiten von Wortfolgen enthält. Wir verwenden Sprachmodelle für Diktieranwendungen, während Grammatiken in interaktiven Sprachausgabeanwendungen verwendet werden (IVR) oder Desktop Command and Control oder Telefonie.

3.Sprach-Engine

Eine Voice-Engine ist das Herzstück des Voice-Akkreditierungssystems. Dies ist die Software, die Ihrem Computer die Möglichkeit gibt, Text in gesprochener Stimme wiederzugeben (allgemein bekannt als Text-to-Speech oder TTS).

Wie funktioniert die Sprachakkreditierung?

Abbildung |  conversión de voz a texto |  Konvertierung von Sprache in Text

Verfahren zur Sprachakkreditierung

Verfahren zur Sprachakkreditierung Hidden-Markov-Modell (HMM), Modelle von tiefen neuronalen Netzwerken konvertieren Audio oft in Text.

HMM (VERSTECKTES MARKOV-MODELL) ist das statistische Modell, das die Ausgabe als Folge von Symbolen oder Mengen erzeugt hat. Der Grund für die Verwendung von HMMs als Instrument zur Sprachakkreditierung ist ihre Fähigkeit, die Sprachakkreditierung als stückweises stationäres Signal oder als kurzlebiges stationäres Signal zu behandeln.. Auf kurzer Zeitskala (als Beispiel, 10 Millisekunden), Sprache kann als stationäres Verfahren approximiert werden.

HMM-Codebuch

Quelle

In diesem Blog, Ich zeige eine Möglichkeit, Sprache mit Python in Text umzuwandeln. Dies geschieht mit Hilfe der API “Sprachakkreditierung” und die Bibliothek “PyAudio”. Die Sprachakkreditierungs-API unterstützt mehrere APIs, Während dieses Blogs habe ich die Google Voice Accreditation API verwendet.

Python-Bibliotheken

!pip install Spracherkennung

Konvertieren einer Audiodatei in Text

Hier sind die nächsten Schritte zum Konvertieren von Audiodateien in Text:

Schritte:

  1. Sprachakkreditierungsbibliothek importieren

  2. Initialisieren der Erkennerklasse zum Erkennen von Sprache. Wir verwenden die Google-Sprachakkreditierung.

  3. Zu den Audiodateien, die mit einem Sprachanmeldesystem kompatibel sind, gehören wav, AIFF, AIFF-C, FLAC. Ich habe die 'wav . benutzt’ um diese Instanz zu betreten.

  4. Hier verwenden wir die Audioclips aus dem Film 'Taken’ was sagt es “ich weiß nicht wer du bist, Ich weiß nicht, was dich interessieren würde, wenn du nach einer Rettung suchst. Ich kann dir sagen, dass ich kein Geld habe”.

  5. Standardmäßig, Google Recognizer liest auf Englisch.

Code

#Bibliothek importieren
Spracherkennung als sr importieren
# Erkennerklasse initialisieren (zum Erkennen der Rede)
r = sr.Erkenner()
# Audiodatei als Quelle lesen
# Hören Sie sich die Audiodatei an und speichern Sie sie in der Variablen audio_text
mit sr.AudioFile('Ich-weiß-nicht.wav') als Quelle:
    audio_text = r.hören(Quelle)
# wenn die API nicht erreichbar ist, die erkennen_() Methode gibt einen Anfragefehler aus, daher die Ausnahmebehandlung verwenden
    Versuchen:
        # mit Google Spracherkennung
        text = r.recognize_google(audio_text)
        drucken('Audiotranskripte in Text umwandeln ...')
        drucken(Text)
    außer:
         drucken('Es tut uns leid.. führe es nochmals aus...')

Produktion

Ausgang1 |  Konvertierung von Sprache in Text

Wie wäre es mit der Konvertierung in verschiedene Audiosprachen??

Englisch ist eine der häufigsten Sprachen. Aber, Was ist, wenn wir aus verschiedenen Sprachen konvertieren möchten, wie, deutsch und französisch? Von diesem Speech-to-Text-System (STT), kann Ihre Stimme von jeder Sprache in Text umwandeln. Mal sehen wie

Als Beispiel, wenn wir eine Audiodatei auf Französisch lesen wollen, dann müssen wir in recogonize_google . eine Sprachoption hinzufügen. Der restliche Code bleibt gleich.

#Hinzufügen der französischen Sprachoption
text = r.recognize_google(audio_text, Sprache = "fr-FR")

Produktion

Ausgang 2

Nochmal, erforderliche Sprachoption wird in Recogni_google hinzugefügt () für die Sprachakkreditierung. Ich spreche auf Tamil, Indische Sprachen und Hinzufügen “der IN” in der Sprachoption.

# Hinzufügen "Tamilische Sprache"
drucken("Text: „+r.recognize_google(audio_text, Sprache = „ta-IN“))

Ich sagte nur “wie gehts” in Tamil und drucken Sie den tamilischen Text genau aus.

Produktion

Ausgang3

Mikrofonstimme im Text

Mikrofone werden verwendet, um Audio als Eingabe von Benutzern zu empfangen. Es stehen viele verschiedene Bibliotheken zur Verfügung, um Mikrofonsprache in Text umzuwandeln. Hier verwenden wir PyAudio für diese Konvertierung.

Schritte:

  1. Wir müssen die PyAudio-Bibliothek installieren, die verwendet wird, um Audioeingaben und -ausgaben über das Mikrofon und den Lautsprecher zu empfangen. Hilft unsere Stimme durch das Mikrofon zu extrahieren.

! pip instalar PyAudio

  1. Wir müssen die Mikrofonklasse verwenden, anstelle einer Audiodateiquelle. Die restlichen Schritte sind die gleichen.

Code

#Bibliothek importieren
Spracherkennung als sr importieren
# Erkennerklasse initialisieren (zum Erkennen der Rede)
r = sr.Erkenner()
# Lesemikrofon als Quelle
# Anhören der Sprache und Speichern in der audio_text-Variablen
mit sr.Mikrofon() als Quelle:
    drucken("Sprechen")
    audio_text = r.hören(Quelle)
    drucken("Die Zeit ist um, Danke")
# erkennen_() Methode gibt einen Anfragefehler aus, wenn die API nicht erreichbar ist, daher die Ausnahmebehandlung verwenden
    Versuchen:
        # mit Google Spracherkennung
        drucken("Text: "+r.recognize_google(audio_text))
    außer:
         drucken("Es tut uns leid, Ich habe das nicht verstanden")

Ich habe gerade gesprochen “Wie geht es dir?”

Produktion

Ausgang4

ANWENDUNGEN

  1. Systeme im Auto

  2. Gesundheitsvorsorge

  3. Militär

  4. Ausbildung von Fluglotsen

  5. Telefonie und andere Domains

  6. Einsatz in Bildung und Alltag.

Fazit:

Die Google Speech Accreditation API ist eine einfache Möglichkeit, Sprache in Text umzuwandeln, aber es braucht eine Online-Verbindung, um zu funktionieren. In diesem Blog, Wir haben eine Möglichkeit gesehen, mit der Sprachakkreditierungs-API von Google Sprache in Text umzuwandeln. Dies kann für NLP-Projekte sehr nützlich sein., speziell für das Datenhandling von Audiotranskripten. Wenn Sie etwas hervorheben möchten, Hinterlasse gerne einen Kommentar! Danke fürs Lesen. Lerne weiter und bleib dran für mehr!!

Die in diesem Beitrag gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.