LSTM | Einführung in LSTM

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Ziel

  • LSTM ist eine spezielle Art von wiederkehrenden neuronalen Netzen, die mit langfristigen Abhängigkeiten umgehen können.
  • Verstehen Sie die Architektur und den Betrieb eines LSTM-Netzwerks

Einführung

Long Short Term Memory Network ist ein fortschrittliches RNN, ein sequentielles Netzwerk, das ermöglicht, dass Informationen bestehen bleiben. Ist in der Lage, das Problem des Verschwindegradienten zu bewältigen, mit dem RNN konfrontiert ist. Ein wiederkehrendes neuronales Netz wird auch als RNN bezeichnet und wird für den persistenten Speicher verwendet.

Nehmen wir an, Sie erinnern sich beim Anschauen eines Videos an die vorherige Szene oder beim Lesen eines Buches, und Sie wissen, was im vorherigen Kapitel passiert ist. Ähnlich, RNNs funktionieren, Merken Sie sich die vorherigen Informationen und verwenden Sie sie, um die aktuelle Eingabe zu verarbeiten. Der Nachteil von RNN besteht darin, dass sie sich aufgrund des Verschwindungsgradienten nicht an die langfristigen Abhängigkeiten erinnern können. LSTMs sind explizit darauf ausgelegt, langfristige Abhängigkeitsprobleme zu vermeiden.

Notiz: Wenn Sie mehr daran interessiert sind, Konzepte in einem audiovisuellen Format zu lernen, wir haben diesen vollständigen Artikel im Video unten erklärt. Wenn dies nicht der Fall ist, du kannst weiterlesen.

LSTM-Architektur

Auf hohem Niveau, LSTM funktioniert ähnlich wie eine RNN-Zelle. Hier ist das Innenleben des LSTM-Netzwerks. Das LSTM besteht aus drei Teilen, wie im Bild unten gezeigt und jedes Teil führt eine individuelle Funktion aus.

screenshot-from-2021-03-16-13-26-39-1061104

Der erste Teil wählt aus, ob die Informationen aus dem vorherigen Zeitstempel gespeichert werden sollen oder irrelevant sind und vergessen werden können. Im zweiten Teil, die Zelle versucht, neue Informationen aus der Eingabe in diese Zelle zu lernen. Schließlich, im dritten teil, die Zelle übergibt die aktualisierten Informationen vom aktuellen Zeitstempel an den nächsten.

Diese drei Teile einer LSTM-Zelle werden als Türen bezeichnet. Der erste Teil heißt Vergiss die Tür, das der zweite Teil ist bekannt als die Vordertür und der letzte ist die Ausgangstür.

screenshot-from-2021-03-16-13-41-03-9628172

Wie ein einfaches RNN, ein LSTM hat auch einen versteckten Zustand, in dem H (t-1) repräsentiert den versteckten Zustand des vorherigen Zeitstempels und Ht ist der versteckte Zustand des aktuellen Zeitstempels. Außerdem, LSTM hat auch einen Zellenzustand, der durch C . dargestellt wird (t-1) y C

Hier, Der versteckte Zustand wird als Kurzzeitgedächtnis bezeichnet und der Zustand der Zelle wird als Langzeitgedächtnis bezeichnet. Bitte beachten Sie das folgende Bild.

screenshot-from-2021-03-16-13-45-35-4331497

Es ist interessant zu bemerken, dass der Zustand der Zelle die Informationen zusammen mit allen Zeitstempeln trägt.

screenshot-from-2021-03-16-13-56-49-4995559

Nehmen wir ein Beispiel, um zu verstehen, wie LSTM funktioniert. Hier haben wir zwei durch einen Punkt getrennte Sätze. Der erste Satz ist “Bob ist ein guter Mensch” und der zweite Satz ist “Und, Zweitens, es ist böse”. Es ist ganz klar, im ersten Satz sprechen wir von Bob und sobald wir den Punkt gefunden haben (.) Wir haben angefangen, über Dan zu sprechen.

Wenn wir vom ersten Satz zum zweiten gehen, Unser Netzwerk muss erkennen, dass wir nicht mehr über Bob sprechen. Jetzt ist unser Thema Dan. Hier, die Forget Network-Tür lässt Sie es vergessen. Lassen Sie uns die Rolle verstehen, die diese Türen in der LSTM-Architektur spielen.

Vergiss die Tür

In einer Zelle des LSTM-Netzes, Der erste Schritt besteht darin, zu entscheiden, ob wir die alten Zeitstempelinformationen behalten oder vergessen sollen. Hier ist die Gleichung für die Tür des Vergessens.

screenshot-from-2021-03-16-14-38-18-8223630

Versuchen wir, die Gleichung zu verstehen, hier

  • Xt: Eingabe des aktuellen Zeitstempels.
  • Uf: Gewicht verbunden mit Eingabe
  • Ht-1: der versteckte Zustand des vorherigen Zeitstempels
  • Wf: Es ist die dem versteckten Zustand zugeordnete Gewichtungsmatrix.

Anschließend, eine Sigmoidfunktion wird darauf angewendet. Das macht ft zu einer Zahl zwischen 0 Ja 1. Dieses ft wird später mit dem Zellenzustand des vorherigen Zeitstempels multipliziert, wie im Folgenden gezeigt.

screenshot-from-2021-03-16-14-46-28-5691233

Wenn ft ist 0, das Netzwerk wird alles vergessen und wenn der Wert von ft ist 1, werde nichts vergessen. Kommen wir zurück zu unserem Beispiel. Der erste Satz sprach über Bob und nach einem Punkt, das Netz wird Dan treffen, im Idealfall, das Netz sollte Bob vergessen.

Eingangstor

Nehmen wir ein anderes Beispiel

„Bob kann schwimmen“. Er sagte mir am Telefon, dass er vier lange Jahre in der Marine gedient hatte “.

Dann, in diesen beiden Sätzen, wir reden über bob. Aber trotzdem, beide bieten unterschiedliche Arten von Informationen über Bob. Im ersten Satz, Wir bekommen die Informationen, dass Sie schwimmen können. Während der zweite Satz besagt, dass er das Telefon benutzt und vier Jahre in der Marine gedient hat.

Jetzt denk einfach drüber nach, basierend auf dem im ersten Satz angegebenen Kontext, Welche Informationen im zweiten Satz sind kritisch. Zuerst, benutzte das Telefon zur Beratung oder diente in der Marine. In diesem Kontext, Es spielt keine Rolle, ob Sie das Telefon oder ein anderes Kommunikationsmittel verwendet haben, um die Informationen zu übermitteln. Die Tatsache, dass er bei der Navy war, ist eine wichtige Information und daran möchten wir unser Modell erinnern. Das ist die Aufgabe der Haustür.

Das Eingangstor wird verwendet, um die Bedeutung der neuen Informationen zu quantifizieren, die durch den Eingang transportiert werden. Hier ist die Haustürgleichung.

screenshot-from-2021-03-16-15-09-49-5612097Hier,

  • Xt: Eintrag mit aktuellem Zeitstempel t
  • Ui: Eingabegewichtsmatrix
  • Ht-1: ein versteckter Zustand im vorherigen Zeitstempel
  • Wi: Gewichtsmatrix der mit dem versteckten Zustand verknüpften Eingabe

Wieder haben wir die Sigmoidfunktion angewendet. Infolge, der Wert von I zum Zeitstempel t liegt zwischen 0 Ja 1.

Neue Informationen

screenshot-from-2021-03-16-15-18-59-8971848

Jetzt, die neuen Informationen, die zum Übergang in den Zellenzustand erforderlich sind, sind eine Funktion eines versteckten Zustands zum vorherigen Zeitstempel t-1 und Eingabe von x zum Zeitpunkt t. Die Aktivierungsfunktion ist hier tanh. Aufgrund der Tanh-Funktion, der Wert der neuen Informationen liegt zwischen -1 Ja 1. Wenn der Wert von Nt negativ ist, die Informationen werden vom Zellenzustand abgezogen und wenn der Wert positiv ist, die Informationen werden zum aktuellen Datum und zur aktuellen Uhrzeit zum Zellenstatus hinzugefügt.

Aber trotzdem, das Nt wird nicht direkt zum Zellenzustand hinzugefügt. Hier kommt die aktualisierte Gleichung

screenshot-from-2021-03-16-15-27-17-8067958

Hier, Ct-1 ist der Zustand der Zelle zum aktuellen Zeitstempel und andere sind die Werte, die wir zuvor berechnet haben.

Ausgang

Betrachten Sie nun diesen Satz

„Bob kämpfte allein gegen den Feind und starb für sein Land. Für Ihre Beiträge, mutig________. “

Während dieser Aufgabe, wir müssen den zweiten Satz vervollständigen. Jetzt, sobald wir das Wort mutig sehen, Wir wissen, dass wir über eine Person sprechen. Im Satz ist nur Bob mutig, Wir können nicht sagen, dass der Feind mutig ist oder das Land mutig ist. Dann, basierend auf der aktuellen Erwartung, wir müssen ein relevantes Wort eingeben, um die Lücke auszufüllen. Dieses Wort ist unser Ausgang und das ist die Funktion unserer Ausgangstür.

Hier ist die Exit-Gate-Gleichung, was den beiden vorherigen Türen ziemlich ähnlich ist.

screenshot-from-2021-03-16-15-39-05-3222227

Sein Wert wird auch zwischen 0 Ja 1 aufgrund dieser Sigmoidfunktion. Jetzt, um den aktuellen versteckten Zustand zu berechnen, Wir werden Ot und Tanh aus dem aktualisierten Zellenstatus verwenden. Wie nachfolgend dargestellt.

screenshot-from-2021-03-16-15-41-22-6532255

Es stellt sich heraus, dass der versteckte Zustand eine Funktion des Langzeitgedächtnisses ist (Ct) und die aktuelle Ausgabe. Wenn Sie den aktuellen Zeitstempel ausgeben müssen, Wenden Sie einfach die SoftMax-Aktivierung im Ht-versteckten Zustand an.

screenshot-from-2021-03-16-15-45-14-7356411

Hier, das Token mit der höchsten Punktzahl in der Ausgabe ist die Vorhersage.

Dies ist das intuitivste Diagramm des LSTM-Netzwerks.

screenshot-from-2021-03-16-15-51-05-1381466

Dieses Diagramm stammt aus einem interessanten Blog. Ich fordere alle auf, es zu überprüfen. Hier ist der Link-

Abschließende Anmerkungen

Zusammenfassend, In diesem Artikel haben wir die Architektur eines sequentiellen LSTM-Modells und ihre Funktionsweise im Detail gesehen.

Wenn Sie Ihre Data Science-Reise beginnen möchten und alle Themen unter einem Dach haben möchten, deine Suche endet hier. Werfen Sie einen Blick auf den zertifizierten KI- und ML-BlackBelt von DataPeaker Plus Programm

Wenn du irgendeine Frage hast, Lass es mich im Kommentarbereich wissen!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.