obbiettivo
- LSTM es un tipo especial de ricorrente neuronale rossoLas redes neuronales recurrentes (RNN) son un tipo de arquitectura de redes neuronales diseñadas para procesar secuencias de datos. A diferencia de las redes neuronales tradicionales, las RNN utilizan conexiones internas que permiten recordar información de entradas anteriores. Esto las hace especialmente útiles en tareas como el procesamiento de lenguaje natural, la traducción automática y el análisis de series temporales, donde el contexto y la secuencia son fundamentales para la... capaz de manejar dependencias a largo plazo.
- Comprendere l'architettura e il funzionamento di una rete LSTM
introduzione
La rete di memoria a lungo termine è un RNN avanzato, una rete sequenziale, che consente alle informazioni di persistere. Es capaz de manejar el problema del gradienteGradiente es un término utilizado en diversos campos, como la matemática y la informática, para describir una variación continua de valores. In matematica, se refiere a la tasa de cambio de una función, mientras que en diseño gráfico, se aplica a la transición de colores. Este concepto es esencial para entender fenómenos como la optimización en algoritmos y la representación visual de datos, permitiendo una mejor interpretación y análisis en... de desaparición al que se enfrenta RNN. UN neuronale rossoLe reti neurali sono modelli computazionali ispirati al funzionamento del cervello umano. Usano strutture note come neuroni artificiali per elaborare e apprendere dai dati. Queste reti sono fondamentali nel campo dell'intelligenza artificiale, consentendo progressi significativi in attività come il riconoscimento delle immagini, Elaborazione del linguaggio naturale e previsione delle serie temporali, tra gli altri. La loro capacità di apprendere schemi complessi li rende strumenti potenti.. recurrente también se conoce como RNN y se usa para la memoria persistente.
Diciamo che mentre guardi un video ti ricordi la scena precedente o mentre leggi un libro sai cosa è successo nel capitolo precedente. Allo stesso modo, Gli RNN funzionano, ricordare le informazioni precedenti e utilizzarle per elaborare l'input corrente. La carenza di RNN è che non riescono a ricordare le dipendenze a lungo termine a causa del gradiente di scomparsa. Gli LSTM sono progettati esplicitamente per evitare problemi di dipendenza a lungo termine.
Nota: Se sei più interessato ad apprendere concetti in un formato audiovisivo, abbiamo questo articolo completo spiegato nel video qui sotto. Se non è così, puoi continuare a leggere.
Architettura LSTM
Ad alto livello, LSTM funziona in modo molto simile a una cella RNN. Ecco il funzionamento interno della rete LSTM. L'LSTM si compone di tre parti, come mostrato nell'immagine qui sotto e ogni parte svolge una funzione individuale.
La prima parte sceglie se l'informazione proveniente dal timestamp precedente deve essere ricordata o è irrilevante e può essere dimenticata. Nella seconda parte, la cella cerca di apprendere nuove informazioni dall'input a questa cella. Finalmente, nella terza parte, la cella passa le informazioni aggiornate dal timestamp corrente al successivo.
Queste tre parti di una cella LSTM sono note come porte. La prima parte si chiama Dimentica la porta, il la seconda parte è conosciuta come la porta di fronte e l'ultimo è la porta di uscita.
Come un semplice RNN, un LSTM ha anche uno stato nascosto in cui H (t-1) rappresenta lo stato nascosto del timestamp precedente e Ht è lo stato nascosto del timestamp corrente. a parte quello, LSTM ha anche uno stato cellulare rappresentato da C (t-1) y C
Qui, lo stato nascosto è noto come memoria a breve termine e lo stato della cellula è noto come memoria a lungo termine. Si prega di fare riferimento alla seguente immagine.
È interessante notare che lo stato della cella porta le informazioni insieme a tutti i timestamp.
Facciamo un esempio per capire come funziona LSTM. Qui abbiamo due frasi separate da un punto. La prima frase è “Bob è una brava persona” e la seconda frase è “e, In secondo luogo, è malvagio”. È molto chiaro, nella prima frase stiamo parlando di Bob e appena troviamo il punto (.) Abbiamo iniziato a parlare di Dan.
UN misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... que pasamos de la primera oración a la segunda, la nostra rete deve rendersi conto che non stiamo più parlando di Bob. Ora il nostro argomento è Dan. Qui, la porta Forget Network ti fa dimenticare. Comprendiamo i ruoli che queste porte giocano nell'architettura LSTM.
Dimentica la porta
In una cella della rete LSTM, il primo passo è decidere se dobbiamo mantenere le informazioni del timestamp precedente o dimenticarle. Ecco l'equazione per la porta dell'oblio.
Proviamo a capire l'equazione, qui
- Xt: input al timestamp corrente.
- Uf: peso associato all'input
- Ht-1: lo stato nascosto del timestamp precedente
- Wf: È la matrice di ponderazione associata allo stato nascosto.
Successivamente, ad esso viene applicata una funzione sigmoide. Questo renderà ft un numero tra 0 e 1. Questo ft viene successivamente moltiplicato per lo stato della cella del timestamp precedente, come mostrato di seguito.
Se ft è 0, la rete dimenticherà tutto e se il valore di ft è 1, non dimenticherò nulla. Torniamo al nostro esempio. La prima frase parlava di Bob e dopo un punto fermo, la rete incontrerà Dan, in un caso ideale, la rete dovrebbe dimenticare Bob.
Cancello d'ingresso
Facciamo un altro esempio
“Bob sa nuotare. Mi ha detto al telefono che aveva prestato servizio in Marina per quattro lunghi anni “.
Quindi, in queste due frasi, stiamo parlando di bob. tuttavia, entrambi forniscono diversi tipi di informazioni su Bob. Nella prima frase, otteniamo le informazioni che sai nuotare. Mentre la seconda frase dice che usa il telefono e ha prestato servizio in Marina per quattro anni.
Ora pensaci, in base al contesto dato nella prima frase, quali informazioni nella seconda frase sono critiche?. Primo, usava il telefono per consigliare o prestava servizio in marina. In tale contesto, Non importa se hai usato il telefono o qualsiasi altro mezzo di comunicazione per trasmettere le informazioni. Il fatto che fosse in Marina è un'informazione importante e questo è qualcosa che vogliamo che il nostro modello ricordi. Questo è il compito della porta d'ingresso.
Il cancello d'ingresso viene utilizzato per quantificare l'importanza delle nuove informazioni trasportate dall'ingresso. Ecco l'equazione per la porta d'ingresso.
Qui,
- Xt: Inserimento con data e ora corrente t
- Ui: matrice dei pesi di input
- Ht-1: uno stato nascosto nel timestamp precedente
- Wi: matrice di peso dell'input associato allo stato nascosto
Ancora una volta abbiamo applicato la funzione sigmoide. Di conseguenza, il valore di I al timestamp t sarà compreso tra 0 e 1.
Nuova informazione
Ora, la nuova informazione che doveva passare allo stato della cella è una funzione di uno stato nascosto al precedente timestamp t-1 e input x al timestamp t. Il funzione svegliaLa función de activación es un componente clave en las redes neuronales, ya que determina la salida de una neurona en función de su entrada. Su propósito principal es introducir no linealidades en el modelo, permitiendo que aprenda patrones complejos en los datos. Existen diversas funciones de activación, como la sigmoide, ReLU y tanh, cada una con características particulares que afectan el rendimiento del modelo en diferentes aplicaciones.... aquí es tanh. A causa della funzione tanh, il valore della nuova informazione sarà compreso tra -1 e 1. Se il valore di Nt è negativo, l'informazione viene sottratta dallo stato della cella e se il valore è positivo, le informazioni vengono aggiunte allo stato della cella alla data e ora correnti.
tuttavia, il Nt non verrà aggiunto direttamente allo stato della cella. Ecco l'equazione aggiornata
Qui, Ct-1 è lo stato della cella al timestamp corrente e altri sono i valori che abbiamo calcolato in precedenza.
Porta di uscita
Ora considera questa frase
Bob ha combattuto il nemico da solo ed è morto per il suo paese. Per i tuoi contributi, coraggioso________. “
Durante questo compito, dobbiamo completare la seconda frase. Ora, nel momento in cui vediamo la parola coraggioso, sappiamo che stiamo parlando di una persona. Nella frase solo Bob è coraggioso, non possiamo dire che il nemico è coraggioso o il paese è coraggioso. Quindi, in base alle aspettative attuali, dobbiamo dare una parola pertinente per riempire lo spazio vuoto. Quella parola è la nostra uscita e questa è la funzione della nostra porta di uscita.
Ecco l'equazione del cancello di uscita, che è abbastanza simile alle precedenti due porte.
Il suo valore sarà anche tra 0 e 1 a causa di questa funzione sigmoide. Ora, per calcolare lo stato nascosto corrente, useremo Ot e tanh dallo stato della cella aggiornato. Come mostrato di seguito.
Si scopre che lo stato nascosto è una funzione della memoria a lungo termine (Ct) e l'uscita di corrente. Se hai bisogno di emettere il timestamp corrente, basta applicare l'attivazione SoftMax in stato nascosto Ht.
Qui, il token con il punteggio più alto nell'output è la previsione.
Questo è il diagramma più intuitivo della rete LSTM.
Questo diagramma è tratto da un blog interessante. Invito tutti a dare un'occhiata. Ecco il link-
Note finali
In sintesi, en este artículo vimos en detalle la arquitectura de un modelo secuencialEl modelo secuencial es un enfoque de desarrollo de software que sigue una serie de etapas lineales y predefinidas. Este modelo incluye fases como la planificación, analisi, design, implementación y mantenimiento. Su estructura permite una fácil gestión del proyecto, aunque puede ser rígida ante cambios imprevistos. Es especialmente útil en proyectos donde los requisitos son bien conocidos desde el inicio, garantizando un progreso claro y medible.... LSTM y cómo funciona.
Se stai cercando di iniziare il tuo viaggio nella scienza dei dati e desideri tutti gli argomenti sotto lo stesso tetto, la tua ricerca si ferma qui. Dai un'occhiata alle certificazioni AI e ML BlackBelt di DataPeaker Più Programma
Se hai qualche domanda, Fatemi sapere nella sezione commenti!