Leitfaden zur Verarbeitung natürlicher Sprache in Python (Teil -1)

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon

Einführung

Computer und Maschinen eignen sich hervorragend zum Arbeiten mit Tabellendaten oder Tabellenkalkulationen. Aber trotzdem, Menschen kommunizieren im Allgemeinen in Worten und Sätzen, nicht in Form von Tabellen oder Tabellenkalkulationen, und die meisten Informationen, die Menschen sprechen oder schreiben, sind unstrukturiert vorhanden. Deswegen, Es ist nicht sehr verständlich, dass Computer diese Sprachen interpretieren.

Deswegen, in der Verarbeitung natürlicher Sprache (PNL), Unser Ziel ist es, unstrukturierten Computertext verständlich zu machen und daraus sinnvolle Informationen zu gewinnen.

Lassen Sie uns die Verarbeitung natürlicher Sprache formal definieren (PNL),

Verarbeitung natürlicher Sprache (PNL) ist ein Unterfeld von künstliche Intelligenz, mit Computer-Mensch-Interaktionen.

Dann, In diesem Artikel, Wir werden einige der grundlegenden Konzepte im Zusammenhang mit NLP besprechen. Dieser Artikel ist Teil einer Blogserie zur Verarbeitung natürlicher Sprache (PNL).

Das ist das Teil 1 aus der Blog-Serie zur Schritt-für-Schritt-Anleitung zur Verarbeitung natürlicher Sprache.

Wichtiger Hinweis

Nach Abschluss einiger Themen, Es gibt einige Übungsfragen (Teste Dein Wissen) da du lösen und die Antwort in das Kommentarfeld geben musst, damit du dein Verständnis eines bestimmten Themas überprüfen kannst.

Inhaltsverzeichnis

1. Was ist natürliche Sprachverarbeitung? (PNL)?

2. Anwendungen zur Verarbeitung natürlicher Sprache

3. Verständnis der Verarbeitung natürlicher Sprache

4. Unterschied zwischen regelbasiertem NLP und statistikbasiertem NLP

5. Komponenten der natürlichen Sprachverarbeitung

6. Mehrdeutigkeit und Unsicherheit bei der Verarbeitung natürlicher Sprache

Was ist natürliche Sprachverarbeitung??

Verarbeitung natürlicher Sprache (PNL) ist ein Teilgebiet der Informatik und Künstlichen Intelligenz, das sich mit den Wechselwirkungen zwischen Computern und menschlichen Sprachen beschäftigt (natürlich). Dies wird entscheidend, wenn wir maschinelles Lernen oder Deep-Learning-Algorithmen auf einen Datensatz anwenden möchten, der Text und Sprache enthält..

Zum Beispiel, Wir können NLP verwenden, um Systeme der künstlichen Intelligenz zu erstellen, wie z,

  • Spracherkennung,
  • Zusammenfassung der Dokumente,
  • Übersetzermaschine,
  • Spam-Erkennung,
  • Erkennung benannter Entitäten,
  • Antworten auf Fragen,
  • Autovervollständigung,
  • Vorausschauendes Schreiben, etc.

Heutzutage, Die meisten unserer Smartphones verfügen über ein Spracherkennungssystem. Diese Smartphones verwenden NLP, um natürliche Sprache zu verstehen und die Antwort zu geben. Was ist mehr, Die meisten Leute verwenden Laptops, deren Betriebssystem über eine integrierte Spracherkennung verfügt.

Teste Dein Wissen

Welches der folgenden ist das Gebiet der Verarbeitung natürlicher Sprache??

  • Informatik
  • Künstliche Intelligenz
  • Computerlinguistik
  • Alle vorherigen

NLP-Anwendungen

Einige Anwendungen der Verarbeitung natürlicher Sprache sind wie folgt:

Cortana

1txj0kr4jvrtltmvxzfu8lw-9927551

Bildquelle: Google Bilder

Das Betriebssystem von Microsoft hat einen virtuellen Assistenten namens Cortana die eine natürliche Stimme erkennen können. Seine Anwendungen umfassen

  • Erinnerungen festlegen
  • Anwendungen öffnen,
  • E-Mail an jeden,
  • Spiele Spiele, um dich zu unterhalten,
  • Flug- und Paketverfolgung,
  • Nachgucken wie das Wetter wird, etc.

Wenn Sie mehr über Cortana-Befehle erfahren möchten, siehe den link hier.

Sirius

1-aukczbxivohi-agx4j8pq-7097538

Bildquelle: Google Bilder

Sirius ist ein virtueller Assistent, der von iOS-Betriebssystemen erstellt wurde, watchOS, Mac OS, HomePod und tvOS von Apple Inc. Nochmal, damit können Sie viele Dinge mit Sprachbefehlen tun:

  • Starten Sie einen Anruf mit jemandem
  • Senden Sie eine SMS an jemanden
  • Eine E-Mail senden
  • Stellen Sie einen Timer
  • Mach ein Foto
  • Öffne eine App
  • Richte einen Alarm ein
  • Navigation verwenden, etc.

Hier ist eine vollständige Liste aller Siri-Befehle.

Google Mail

1ftphu7pqgibnngbwg5zfwa-1381652

Bildquelle: Google Bilder

Google Mail ist der berühmte E-Mail-Dienst von Google und verwendet Spam-Erkennung, um einige Spam-E-Mails durch Textverarbeitung herauszufiltern, in der Sie die Texte dieser bestimmten E-Mail erhalten, die Sie als Spam finden möchten oder nicht.

Teste Dein Wissen

Welche der folgenden Anwendungsfälle sind NLP??

  • Objekte aus einem Bild erkennen
  • Gesichtserkennung
  • Sprachbiometrie
  • Textzusammenfassung

Verständnis der Verarbeitung natürlicher Sprache

Verständnis der Verarbeitung natürlicher Sprache

Bildquelle: Google Bilder

UNS, wie Menschen, Es ist keine sehr schwierige Aufgabe, die Verarbeitung natürlicher Sprache durchzuführen (PNL), aber dennoch, Wir sind nicht perfekt. Wir missverstehen oft eins für das andere und, häufig, wir interpretieren dieselben Sätze oder Wörter anders.

Zum Beispiel, Betrachten Sie die folgenden Sätze und versuchen Sie, ihre Interpretation auf viele verschiedene Arten zu verstehen:

Beispiel 1

Satz: Ich habe einen Studenten mit einem Mikroskop auf einem Hügel gesehen.

Dies sind verschiedene Interpretationen des vorherigen Satzes, der unten gezeigt wird:

  • Auf dem Hügel ist ein Student und ich habe ihn mit meinem Mikroskop angeschaut.
  • Auf dem Hügel ist ein Student und er hat ein Mikroskop.
  • Ich bin auf einem Hügel und habe einen Studenten mit meinem Mikroskop gesehen.
  • Ich bin auf einem Hügel und habe einen Studenten gesehen, der ein Mikroskop hat.
  • Da ist ein Student auf einem Hügel und ich habe etwas mit meinem Mikroskop gesehen.

Beispiel 2

Satz: Kannst du mir mit der Dose helfen??

Im vorherigen Satz, wir stellen fest, dass es zwei Wörter gibt “kann”, aber sie haben unterschiedliche bedeutungen. Hier.

Das erste Wort “kann” wird verwendet, um eine Frage zu bilden.

Das zweite Wort “Jahre” das am Ende des Satzes verwendet wird, wird verwendet, um einen Behälter darzustellen, der einige Dinge wie Lebensmittel oder Flüssigkeiten enthält, etc.

Welche Schlussfolgerungen können wir aus den beiden vorherigen Beispielen ziehen??

Aus den beiden obigen Beispielen, Wir können sehen, dass die Sprachverarbeitung nicht “deterministisch”, nämlich, die gleiche Sprache hat die gleichen Interpretationen, und etwas, das für eine Person geeignet ist, kann für eine andere nicht geeignet sein. Deswegen, Verarbeitung natürlicher Sprache (NLP) hat einen nicht-deterministischen Ansatz.

In einfachen Worten, Wir können Natural Language Processing verwenden, um ein neues intelligentes oder KI-System zu schaffen, das Sprache in verschiedenen Situationen genauso verstehen und interpretieren kann.

Unterschied zwischen regelbasiertem NLP und statistischem NLP

Die Verarbeitung natürlicher Sprache wird in zwei verschiedene Ansätze unterteilt:

Regelbasierte Verarbeitung natürlicher Sprache

Verwendet den gesunden Menschenverstand, um Aufgaben zu bearbeiten.

Zum Beispiel,

  • Gefriertemperaturen können zum Tod führen oder
  • Heißer Kaffee kann die Haut der Menschen verbrennen
  • Einige andere Aufgaben des gesunden Menschenverstands, etc.

Aber trotzdem, diese Prozesse können länger dauern und erfordern manuellen Aufwand.

Statistische Verarbeitung natürlicher Sprache

Diese Art von NLP verwendet große Datenmengen und zielt darauf ab, Schlussfolgerungen daraus abzuleiten. Um NLP-Modelle zu trainieren, verwendet maschinelle Lernalgorithmen. Nach Abschluss des Trainingsprozesses an großen Datenmengen, das trainierte Modell wird mit Abzug positive Ergebnisse haben.

Vergleich (Vor-und Nachteile)

Vergleich (Vor-und Nachteile)

Bestandteile von NLP

Die zwei Grundkomponenten, in die NLP unterteilt werden kann, sind wie folgt:

  • Natürliches Sprachverständnis (NLU)
  • Natürliche Sprachgenerierung (NLG)

Bestandteile von NLP

Bildquelle: Google Bilder

Natürliches Sprachverständnis (NLU)

NLU ist natürlich schwieriger als NLG-Aufgaben. Schauen wir uns die Herausforderungen an, denen sich eine Maschine gegenübersieht, wenn sie versucht, natürliche Sprache zu verstehen.

Wenn Sie eine Sprache lernen oder versuchen, eine Sprache zu interpretieren, Es gibt viele Unklarheiten.

Satz: Er sucht ein Match.

Hier, Was verstehst du unter “Spiel” – Paarkampf oder Cricket / Fußball.

Lexikalische Mehrdeutigkeit kann auftreten, wenn ein Wort eine andere Bedeutung hat, nämlich, hat mehr als eine Bedeutung, und der Satz, in dem dieses Wort verwendet wird, kann aufgrund seiner korrekten Bedeutung unterschiedlich interpretiert werden. Um diese Art von Mehrdeutigkeiten bis zu einem gewissen Grad aufzulösen, wir können Techniken zum Tagging in Wortlaut verwenden.

Satz: Das Hühnchen ist fertig zum Essen.

Ist das Hühnchen bereit, Ihr Essen zu essen oder ist das Hühnchen bereit, damit jemand anderes es essen kann?? Man weiß nie.

Syntaktische Mehrdeutigkeit tritt auf, wenn wir beobachten, dass eine Wortfolge mehr als eine Bedeutung haben kann. Auch als grammatikalische Mehrdeutigkeit bekannt.

Satz: Chirag traf Kshitiz und Dinesh. Sie gingen in ein Restaurant.

Hier, beziehen sich auf Kshitiz und Dinesh oder alle.

Referenzielle Mehrdeutigkeit: Sehr oft wird in einem Text eine Entität erwähnt (etwas / jemand) und dann wird es wieder referenziert, möglicherweise in einem anderen Satz, mit Hilfe eines anderen Wortes. Dann, Diese verschiedenen Pronomen können Mehrdeutigkeiten verursachen, wenn nicht klar ist, auf welches Nomen du dich beziehst.

Natürliche Sprachgenerierung (NLG)

Es ist definiert als der Prozess des Generierens oder Extrahierens bedeutungsvoller Phrasen und Sätze in Form natürlicher Sprache mit Hilfe einer internen Repräsentation.

Diese Komponente umfasst die drei grundlegenden Schritte:

  • Textplanung: Es beinhaltet das Abrufen relevanter Informationen aus der Wissensdatenbank.
  • Satzplanung: Es beinhaltet Prozesse wie die Auswahl der erforderlichen Wörter, Bilde sinnvolle Sätze, den Ton des Satzes festlegen.
  • Textrealisierung: Beinhaltet das Abbilden von Gebetsplänen in die Satzstruktur.

Teste Dein Wissen

Frage 1: NLP ist in zwei Teilbereiche unterteilt:

  • symbolisch und numerisch
  • algorithmisch und heuristisch
  • Zeit und Bewegung
  • Verständnis und Generation

Frage 2: Welche der folgenden Methoden werden verwendet, um Satzpläne in die Satzstruktur abzubilden??

  • Textplanung
  • Satzplanung
  • Textrealisierung
  • Alles das oben Genannte

Mehrdeutigkeit und Unsicherheit im NLP

Bei der Verarbeitung natürlicher Sprache, Ambiguität kann als die Fähigkeit bezeichnet werden, auf mehr als eine Weise verstanden zu werden. In einfachen Worten, Wir können die Mehrdeutigkeit in Bezug auf die Fähigkeit, auf mehr als eine Weise verstanden zu werden, verstehen. Natürliche Sprache ist sehr mehrdeutig.

NLP hat die folgenden fünf Arten von Mehrdeutigkeiten:

Lexikalische Mehrdeutigkeit

Lexikalische Mehrdeutigkeit ist die Mehrdeutigkeit, die durch die Mehrdeutigkeit eines einzelnen Wortes impliziert wird.

Zum Beispiel, Betrachten wir die folgenden Sätze:

Sie hat zwei Silbermedaillen gewonnen
Sie hielt eine silberne Rede
Seine Sorgen hatten sein Haar versilbert

In den vorherigen Sätzen, wie wir das Wort Silber behandeln- als ein Nomen, ein Adjektiv oder ein Verb.

Syntaktische Mehrdeutigkeit

Syntaktische Mehrdeutigkeit tritt auf, wenn ein Satz auf unterschiedliche Weise geparst wird.

Zum Beispiel, Lass uns beten

Satz: Der Mann sah das Mädchen mit dem Mikroskop

Dieser Satz ist mehrdeutig, da:

ob der Mann das Mädchen unter einem Mikroskop oder durch sein Mikroskop gesehen hat.

Semantische Mehrdeutigkeit

Diese Art von Mehrdeutigkeit tritt auf, wenn die Bedeutung der Wörter selbst falsch interpretiert werden kann. In einfachen Worten, Semantische Mehrdeutigkeit tritt auf, wenn ein Satz ein mehrdeutiges Wort oder eine mehrdeutige Wortgruppe enthält.

Zum Beispiel, Lass uns beten

Satz: Der Bus ist während der Fahrt gegen die Stange gefahren

Der vorherige Satz hat semantische Mehrdeutigkeit, weil dieser Satz zwei Interpretationen haben kann

  • “Der fahrende Bus traf die Stange”
  • „Der Bus kollidierte mit dem Mast, während sich der Mast bewegte“.

Anaphorische Mehrdeutigkeit

Anaphora bedeutet, dass der gleiche Satzanfang mehrmals wiederholt wird und anaphorische Mehrdeutigkeit aufgrund der Verwendung von Anaphora-Entitäten in der Sprache auftritt.

Zum Beispiel, Lass uns eine Gruppe von Gebeten haben:

Satz: Der Hund rannte den Hügel hinauf. Es war sehr steil. Bald wurde es müde. 

Hier, die anaphorische Referenz von “das” in zwei Situationen führt zu Mehrdeutigkeit.

Pragmatische Mehrdeutigkeit

Diese Arten von Mehrdeutigkeiten treten auf, wenn der Kontext eines Satzes mehrere Interpretationen zulässt. In einfachen Worten, wir können sagen, dass diese Mehrdeutigkeiten auftreten, wenn die Aussage nicht spezifisch ist.

Zum Beispiel, Lass uns beten

Satz: Ich mag dich auch

die mehrere Interpretationen haben können wie:

  • Ich mag dich (wie magst du mich)
  • Ich mag dich (wie die Anderen).

Damit endet unser Teil 1 aus der Blog-Reihe zur Verarbeitung natürlicher Sprache!

Abschließende Anmerkungen

Danke fürs Lesen!

Wenn dir das gefallen hat und du mehr wissen möchtest, Besuchen Sie meine anderen Artikel zu Data Science und Machine Learning, indem Sie auf das klicken Verknüpfung

Kontaktieren Sie mich gerne unter Linkedin, Email.

Alles was nicht erwähnt wurde oder du deine Gedanken teilen möchtest? Fühlen Sie sich frei, unten einen Kommentar zu hinterlassen und ich melde mich bei Ihnen.

Über den Autor

Chirag Goyal

Heutzutage, Ich studiere meinen Bachelor of Technology (B.Tech) in Informatik und Ingenieurwissenschaften von Indisches Technologieinstitut Jodhpur (IITJ). Ich freue mich sehr über maschinelles Lernen, Deep Learning und künstliche Intelligenz.

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.