Dieser Artikel wurde im Rahmen der Data Science Blogathon
Einführung
Computer und Maschinen eignen sich hervorragend zum Arbeiten mit Tabellendaten oder Tabellenkalkulationen. Aber trotzdem, Menschen kommunizieren im Allgemeinen in Worten und Sätzen, nicht in Form von Tabellen oder Tabellenkalkulationen, und die meisten Informationen, die Menschen sprechen oder schreiben, sind unstrukturiert vorhanden. Deswegen, Es ist nicht sehr verständlich, dass Computer diese Sprachen interpretieren.
Deswegen, in der Verarbeitung natürlicher Sprache (PNL), Unser Ziel ist es, unstrukturierten Computertext verständlich zu machen und daraus sinnvolle Informationen zu gewinnen.
Lassen Sie uns die Verarbeitung natürlicher Sprache formal definieren (PNL),
Verarbeitung natürlicher Sprache (PNL) ist ein Unterfeld von künstliche Intelligenz, mit Computer-Mensch-Interaktionen.
Dann, In diesem Artikel, Wir werden einige der grundlegenden Konzepte im Zusammenhang mit NLP besprechen. Dieser Artikel ist Teil einer Blogserie zur Verarbeitung natürlicher Sprache (PNL).
Das ist das Teil 1 aus der Blog-Serie zur Schritt-für-Schritt-Anleitung zur Verarbeitung natürlicher Sprache.
Wichtiger Hinweis
Nach Abschluss einiger Themen, Es gibt einige Übungsfragen (Teste Dein Wissen) da du lösen und die Antwort in das Kommentarfeld geben musst, damit du dein Verständnis eines bestimmten Themas überprüfen kannst.
Inhaltsverzeichnis
1. Was ist natürliche Sprachverarbeitung? (PNL)?
2. Anwendungen zur Verarbeitung natürlicher Sprache
3. Verständnis der Verarbeitung natürlicher Sprache
4. Unterschied zwischen regelbasiertem NLP und statistikbasiertem NLP
5. Komponenten der natürlichen Sprachverarbeitung
6. Mehrdeutigkeit und Unsicherheit bei der Verarbeitung natürlicher Sprache
Was ist natürliche Sprachverarbeitung??
Verarbeitung natürlicher Sprache (PNL) ist ein Teilgebiet der Informatik und Künstlichen Intelligenz, das sich mit den Wechselwirkungen zwischen Computern und menschlichen Sprachen beschäftigt (natürlich). Dies wird entscheidend, wenn wir maschinelles Lernen oder Deep-Learning-Algorithmen auf einen Datensatz anwenden möchten, der Text und Sprache enthält..
Zum Beispiel, Wir können NLP verwenden, um Systeme der künstlichen Intelligenz zu erstellen, wie z,
- Spracherkennung,
- Zusammenfassung der Dokumente,
- Übersetzermaschine,
- Spam-Erkennung,
- Erkennung benannter Entitäten,
- Antworten auf Fragen,
- Autovervollständigung,
- Vorausschauendes Schreiben, etc.
Heutzutage, Die meisten unserer Smartphones verfügen über ein Spracherkennungssystem. Diese Smartphones verwenden NLP, um natürliche Sprache zu verstehen und die Antwort zu geben. Was ist mehr, Die meisten Leute verwenden Laptops, deren Betriebssystem über eine integrierte Spracherkennung verfügt.
Teste Dein Wissen
Welches der folgenden ist das Gebiet der Verarbeitung natürlicher Sprache??
- Informatik
- Künstliche Intelligenz
- Computerlinguistik
- Alle vorherigen
NLP-Anwendungen
Einige Anwendungen der Verarbeitung natürlicher Sprache sind wie folgt:
Cortana
Bildquelle: Google Bilder
Das Betriebssystem von Microsoft hat einen virtuellen Assistenten namens Cortana die eine natürliche Stimme erkennen können. Seine Anwendungen umfassen
- Erinnerungen festlegen
- Anwendungen öffnen,
- E-Mail an jeden,
- Spiele Spiele, um dich zu unterhalten,
- Flug- und Paketverfolgung,
- Nachgucken wie das Wetter wird, etc.
Wenn Sie mehr über Cortana-Befehle erfahren möchten, siehe den link hier.
Sirius
Bildquelle: Google Bilder
Sirius ist ein virtueller Assistent, der von iOS-Betriebssystemen erstellt wurde, watchOS, Mac OS, HomePod und tvOS von Apple Inc. Nochmal, damit können Sie viele Dinge mit Sprachbefehlen tun:
- Starten Sie einen Anruf mit jemandem
- Senden Sie eine SMS an jemanden
- Eine E-Mail senden
- Stellen Sie einen Timer
- Mach ein Foto
- Öffne eine App
- Richte einen Alarm ein
- Navigation verwenden, etc.
Hier ist eine vollständige Liste aller Siri-Befehle.
Google Mail
Bildquelle: Google Bilder
Google Mail ist der berühmte E-Mail-Dienst von Google und verwendet Spam-Erkennung, um einige Spam-E-Mails durch Textverarbeitung herauszufiltern, in der Sie die Texte dieser bestimmten E-Mail erhalten, die Sie als Spam finden möchten oder nicht.
Teste Dein Wissen
Welche der folgenden Anwendungsfälle sind NLP??
- Objekte aus einem Bild erkennen
- Gesichtserkennung
- Sprachbiometrie
- Textzusammenfassung
Verständnis der Verarbeitung natürlicher Sprache
Bildquelle: Google Bilder
UNS, wie Menschen, Es ist keine sehr schwierige Aufgabe, die Verarbeitung natürlicher Sprache durchzuführen (PNL), aber dennoch, Wir sind nicht perfekt. Wir missverstehen oft eins für das andere und, häufig, wir interpretieren dieselben Sätze oder Wörter anders.
Zum Beispiel, Betrachten Sie die folgenden Sätze und versuchen Sie, ihre Interpretation auf viele verschiedene Arten zu verstehen:
Beispiel 1
Satz: Ich habe einen Studenten mit einem Mikroskop auf einem Hügel gesehen.
Dies sind verschiedene Interpretationen des vorherigen Satzes, der unten gezeigt wird:
- Auf dem Hügel ist ein Student und ich habe ihn mit meinem Mikroskop angeschaut.
- Auf dem Hügel ist ein Student und er hat ein Mikroskop.
- Ich bin auf einem Hügel und habe einen Studenten mit meinem Mikroskop gesehen.
- Ich bin auf einem Hügel und habe einen Studenten gesehen, der ein Mikroskop hat.
- Da ist ein Student auf einem Hügel und ich habe etwas mit meinem Mikroskop gesehen.
Beispiel 2
Satz: Kannst du mir mit der Dose helfen??
Im vorherigen Satz, wir stellen fest, dass es zwei Wörter gibt “kann”, aber sie haben unterschiedliche bedeutungen. Hier.
Das erste Wort “kann” wird verwendet, um eine Frage zu bilden.
Das zweite Wort “Jahre” das am Ende des Satzes verwendet wird, wird verwendet, um einen Behälter darzustellen, der einige Dinge wie Lebensmittel oder Flüssigkeiten enthält, etc.
Welche Schlussfolgerungen können wir aus den beiden vorherigen Beispielen ziehen??
Aus den beiden obigen Beispielen, Wir können sehen, dass die Sprachverarbeitung nicht “deterministisch”, nämlich, die gleiche Sprache hat die gleichen Interpretationen, und etwas, das für eine Person geeignet ist, kann für eine andere nicht geeignet sein. Deswegen, Verarbeitung natürlicher Sprache (NLP) hat einen nicht-deterministischen Ansatz.
In einfachen Worten, Wir können Natural Language Processing verwenden, um ein neues intelligentes oder KI-System zu schaffen, das Sprache in verschiedenen Situationen genauso verstehen und interpretieren kann.
Unterschied zwischen regelbasiertem NLP und statistischem NLP
Die Verarbeitung natürlicher Sprache wird in zwei verschiedene Ansätze unterteilt:
Regelbasierte Verarbeitung natürlicher Sprache
Verwendet den gesunden Menschenverstand, um Aufgaben zu bearbeiten.
Zum Beispiel,
- Gefriertemperaturen können zum Tod führen oder
- Heißer Kaffee kann die Haut der Menschen verbrennen
- Einige andere Aufgaben des gesunden Menschenverstands, etc.
Aber trotzdem, diese Prozesse können länger dauern und erfordern manuellen Aufwand.
Statistische Verarbeitung natürlicher Sprache
Diese Art von NLP verwendet große Datenmengen und zielt darauf ab, Schlussfolgerungen daraus abzuleiten. Um NLP-Modelle zu trainieren, verwendet maschinelle Lernalgorithmen. Nach Abschluss des Trainingsprozesses an großen Datenmengen, das trainierte Modell wird mit Abzug positive Ergebnisse haben.
Vergleich (Vor-und Nachteile)
Bestandteile von NLP
Die zwei Grundkomponenten, in die NLP unterteilt werden kann, sind wie folgt:
- Natürliches Sprachverständnis (NLU)
- Natürliche Sprachgenerierung (NLG)
Bildquelle: Google Bilder
Natürliches Sprachverständnis (NLU)
NLU ist natürlich schwieriger als NLG-Aufgaben. Schauen wir uns die Herausforderungen an, denen sich eine Maschine gegenübersieht, wenn sie versucht, natürliche Sprache zu verstehen.
Wenn Sie eine Sprache lernen oder versuchen, eine Sprache zu interpretieren, Es gibt viele Unklarheiten.
Satz: Er sucht ein Match.
Hier, Was verstehst du unter “Spiel” – Paarkampf oder Cricket / Fußball.
Lexikalische Mehrdeutigkeit kann auftreten, wenn ein Wort eine andere Bedeutung hat, nämlich, hat mehr als eine Bedeutung, und der Satz, in dem dieses Wort verwendet wird, kann aufgrund seiner korrekten Bedeutung unterschiedlich interpretiert werden. Um diese Art von Mehrdeutigkeiten bis zu einem gewissen Grad aufzulösen, wir können Techniken zum Tagging in Wortlaut verwenden.
Satz: Das Hühnchen ist fertig zum Essen.
Ist das Hühnchen bereit, Ihr Essen zu essen oder ist das Hühnchen bereit, damit jemand anderes es essen kann?? Man weiß nie.
Syntaktische Mehrdeutigkeit tritt auf, wenn wir beobachten, dass eine Wortfolge mehr als eine Bedeutung haben kann. Auch als grammatikalische Mehrdeutigkeit bekannt.
Satz: Chirag traf Kshitiz und Dinesh. Sie gingen in ein Restaurant.
Hier, beziehen sich auf Kshitiz und Dinesh oder alle.
Referenzielle Mehrdeutigkeit: Sehr oft wird in einem Text eine Entität erwähnt (etwas / jemand) und dann wird es wieder referenziert, möglicherweise in einem anderen Satz, mit Hilfe eines anderen Wortes. Dann, Diese verschiedenen Pronomen können Mehrdeutigkeiten verursachen, wenn nicht klar ist, auf welches Nomen du dich beziehst.
Natürliche Sprachgenerierung (NLG)
Es ist definiert als der Prozess des Generierens oder Extrahierens bedeutungsvoller Phrasen und Sätze in Form natürlicher Sprache mit Hilfe einer internen Repräsentation.
Diese Komponente umfasst die drei grundlegenden Schritte:
- Textplanung: Es beinhaltet das Abrufen relevanter Informationen aus der Wissensdatenbank.
- Satzplanung: Es beinhaltet Prozesse wie die Auswahl der erforderlichen Wörter, Bilde sinnvolle Sätze, den Ton des Satzes festlegen.
- Textrealisierung: Beinhaltet das Abbilden von Gebetsplänen in die Satzstruktur.
Teste Dein Wissen
Frage 1: NLP ist in zwei Teilbereiche unterteilt:
- symbolisch und numerisch
- algorithmisch und heuristisch
- Zeit und Bewegung
- Verständnis und Generation
Frage 2: Welche der folgenden Methoden werden verwendet, um Satzpläne in die Satzstruktur abzubilden??
- Textplanung
- Satzplanung
- Textrealisierung
- Alles das oben Genannte
Mehrdeutigkeit und Unsicherheit im NLP
Bei der Verarbeitung natürlicher Sprache, Ambiguität kann als die Fähigkeit bezeichnet werden, auf mehr als eine Weise verstanden zu werden. In einfachen Worten, Wir können die Mehrdeutigkeit in Bezug auf die Fähigkeit, auf mehr als eine Weise verstanden zu werden, verstehen. Natürliche Sprache ist sehr mehrdeutig.
NLP hat die folgenden fünf Arten von Mehrdeutigkeiten:
Lexikalische Mehrdeutigkeit
Lexikalische Mehrdeutigkeit ist die Mehrdeutigkeit, die durch die Mehrdeutigkeit eines einzelnen Wortes impliziert wird.
Zum Beispiel, Betrachten wir die folgenden Sätze:
Sie hat zwei Silbermedaillen gewonnen Sie hielt eine silberne Rede Seine Sorgen hatten sein Haar versilbert
In den vorherigen Sätzen, wie wir das Wort Silber behandeln- als ein Nomen, ein Adjektiv oder ein Verb.
Syntaktische Mehrdeutigkeit
Syntaktische Mehrdeutigkeit tritt auf, wenn ein Satz auf unterschiedliche Weise geparst wird.
Zum Beispiel, Lass uns beten
Satz: Der Mann sah das Mädchen mit dem Mikroskop
Dieser Satz ist mehrdeutig, da:
ob der Mann das Mädchen unter einem Mikroskop oder durch sein Mikroskop gesehen hat.
Semantische Mehrdeutigkeit
Diese Art von Mehrdeutigkeit tritt auf, wenn die Bedeutung der Wörter selbst falsch interpretiert werden kann. In einfachen Worten, Semantische Mehrdeutigkeit tritt auf, wenn ein Satz ein mehrdeutiges Wort oder eine mehrdeutige Wortgruppe enthält.
Zum Beispiel, Lass uns beten
Satz: Der Bus ist während der Fahrt gegen die Stange gefahren
Der vorherige Satz hat semantische Mehrdeutigkeit, weil dieser Satz zwei Interpretationen haben kann
- “Der fahrende Bus traf die Stange”
- „Der Bus kollidierte mit dem Mast, während sich der Mast bewegte“.
Anaphorische Mehrdeutigkeit
Anaphora bedeutet, dass der gleiche Satzanfang mehrmals wiederholt wird und anaphorische Mehrdeutigkeit aufgrund der Verwendung von Anaphora-Entitäten in der Sprache auftritt.
Zum Beispiel, Lass uns eine Gruppe von Gebeten haben:
Satz: Der Hund rannte den Hügel hinauf. Es war sehr steil. Bald wurde es müde.
Hier, die anaphorische Referenz von “das” in zwei Situationen führt zu Mehrdeutigkeit.
Pragmatische Mehrdeutigkeit
Diese Arten von Mehrdeutigkeiten treten auf, wenn der Kontext eines Satzes mehrere Interpretationen zulässt. In einfachen Worten, wir können sagen, dass diese Mehrdeutigkeiten auftreten, wenn die Aussage nicht spezifisch ist.
Zum Beispiel, Lass uns beten
Satz: Ich mag dich auch
die mehrere Interpretationen haben können wie:
- Ich mag dich (wie magst du mich)
- Ich mag dich (wie die Anderen).
Damit endet unser Teil 1 aus der Blog-Reihe zur Verarbeitung natürlicher Sprache!
Abschließende Anmerkungen
Danke fürs Lesen!
Wenn dir das gefallen hat und du mehr wissen möchtest, Besuchen Sie meine anderen Artikel zu Data Science und Machine Learning, indem Sie auf das klicken Verknüpfung
Kontaktieren Sie mich gerne unter Linkedin, Email.
Alles was nicht erwähnt wurde oder du deine Gedanken teilen möchtest? Fühlen Sie sich frei, unten einen Kommentar zu hinterlassen und ich melde mich bei Ihnen.
Über den Autor
Chirag Goyal
Heutzutage, Ich studiere meinen Bachelor of Technology (B.Tech) in Informatik und Ingenieurwissenschaften von Indisches Technologieinstitut Jodhpur (IITJ). Ich freue mich sehr über maschinelles Lernen, Deep Learning und künstliche Intelligenz.
Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.