obbiettivo
- Le parti del tagging vocale e l'analisi delle dipendenze sono tecniche ampiamente utilizzate nell'elaborazione di testi..
- Comprendere le parti delle etichette vocali e le grammatiche con i rispettivi casi d'uso nell'elaborazione del linguaggio naturale.
introduzione
L'elaborazione del linguaggio naturale è una branca dell'apprendimento automatico che si occupa del modo in cui le macchine comprendono i linguaggi umani. I dati di testo sono un dominio problematico ampiamente disponibile per le attività di PNL.
Per lavorare con dati di testo, è importante trasformare il testo non elaborato in un modo che gli algoritmi di apprendimento automatico possano comprendere e utilizzare, questo si chiama pre-elaborazione del testo. Abbiamo diverse tecniche per la preelaborazione del testo, come lemmatizzazione, lematizzazione, Tagging POS e analisi delle dipendenze.
Nota: Se sei più interessato ad apprendere concetti in un formato audiovisivo, abbiamo questo articolo completo spiegato nel video qui sotto. Se non è così, puoi continuare a leggere.
In questo articolo, parleremo delle proprietà relative alla struttura dei dati di testo. Qui, parleremo delle parti del discorso e delle grammatiche delle dipendenze che ci porteranno a capire come funzionano.
Parti di tag vocali
Le etichette di parte del discorso sono le proprietà delle parole, che ne definiscono il contesto principale, funzioni e uso in una frase. Alcune delle parti più comunemente usate dei tag vocali sono
Nomi: Che definisce qualsiasi oggetto o entità
verbi: Questo definisce alcune azioni.
Aggettivi e avverbi: Agisce come modificatore, quantificatore o intensificatore in qualsiasi frase.
In una frase, ogni parola sarà associata a una parte appropriata del tag vocale. Ad esempio, considera la frase qui sotto
In questa frase, ogni parola è associata a una parte del tag vocale che ne definisce le funzioni. Qui, David ha un tag NNP, il che significa che è un nome proprio. Cosa c'è di più, ha e comprato appartengono al verbo che indica che sono le azioni. Il laptop e l'Apple Store sono i nomi. Nuovo è l'aggettivo la cui funzione è quella di modificare il contesto del laptop.
Le etichette delle parti del discorso sono definite dal rapporto delle parole con le altre parole della frase.
Possiamo applicare modelli di apprendimento automatico e modelli basati su regole per ottenere le etichette delle parti del discorso di una parola. Il corpus Penn Treebank fornisce le parti più comunemente utilizzate delle annotazioni dei tag vocali. In quale, un totale di 48 Etichette POS in base all'uso.
Casi d'uso dei tag POS
I tag delle parti vocali hanno un gran numero di applicazioni e vengono utilizzati in una varietà di attività, Che cosa
- Pulizia del testo
- Compiti di ingegneria delle funzioni
- Disambiguazione del significato della parola
Ad esempio, considera queste frasi
In entrambe le frasi, viene utilizzata la parola chiave libro, ma nella prima frase, è usato come verbo. Mentre nella seconda frase è usato come sostantivo.
Grammatica del collegio elettorale
Ora parliamo di grammatica.
Il primo tipo di grammatica è la grammatica costitutiva. Qualsiasi parola / gruppo di parole / la frase può essere chiamata costituente. L'obiettivo della grammatica costitutiva è organizzare ogni frase nei suoi costituenti usando le sue proprietà. Queste proprietà sono generalmente guidate dalle etichette delle parti del discorso, l'identificazione di nomi o frasi verbali.
Ad esempio, la grammatica di circoscrizione può definire che ogni frase può essere organizzata in tre costituenti: un soggetto, un contesto o un oggetto. Questi componenti possono assumere valori diversi e, Di conseguenza, possono generare frasi diverse.
Un altro modo di considerare la grammatica costitutiva è definirla in termini di parti del discorso.. I tag raccontano una struttura grammaticale che contiene a . Corrisponde alla stessa frase, I cani abbaiano nel parco.
Grammatica delle dipendenze
Abbiamo anche un diverso tipo di grammatica, vale a dire, grammatica delle dipendenze, che afferma che “Le parole in una frase dipendono dalle altre parole nella frase”.
Ad esempio, nell'ultima frase, è stato menzionato un cane che abbaia e il cane è stato modificato abbaiando poiché il modificatore di dipendenza dall'aggettivo esiste tra i due.
La grammatica delle dipendenze organizza le parole in una frase in base alla loro dipendenza. Una delle parole nella frase funge da radice e tutte le altre parole sono collegate direttamente o indirettamente alla radice attraverso le sue dipendenze. Queste dipendenze rappresentano la relazione tra le parole in una frase.
La grammatica delle dipendenze viene utilizzata per comprendere la struttura e le dipendenze semantiche tra le parole. Consideriamo un esempio.
L'albero delle dipendenze per questa frase ha questo aspetto.
In questo albero, la radice della parola è “Comunità”, avendo NN come parte del tag vocale e tutte le altre parole in questo albero sono radicate direttamente o indirettamente con una relazione di dipendenza come oggetto diretto / soggetto diretto, modificatori, eccetera.
Queste relazioni definiscono i loro ruoli e le funzioni di ogni parola nella frase e come le varie parole si collegano tra loro.. Qui, ogni dipendenza può essere rappresentata come una tripletta contenente una relazione, un governatore e un impiegato. Ciò significa che un dipendente è collegato al governatore da una relazione. In altre parole, sono soggetto-verbo o oggetto.
Come nell'ultimo esempio, DataPeaker è il soggetto o il governatore, la più grande comunità di data science è l'impiegato o l'oggetto.
Casi d'uso della grammatica delle dipendenze
La grammatica delle dipendenze ha più casi d'uso, ad esempio
- In riconoscimento dell'entità nominata
- Sistema di risposta alle domande
- Nelle risoluzioni di co-riferimento, dove il compito è mappare i pronomi con le rispettive frasi nominali.
- Problemi di sintesi nel testo.
- Funzioni per problemi di classificazione del testo
Note finali
Per riassumere, in questo articolo abbiamo esaminato le etichette per le parti del discorso e due tipi di grammatica, vale a dire, grammatica di circoscrizione e grammatica delle dipendenze. Abbiamo anche esaminato alcuni esempi importanti e casi d'uso da essi.
Se stai cercando di iniziare il tuo viaggio nella scienza dei dati e desideri tutti gli argomenti sotto lo stesso tetto, la tua ricerca si ferma qui. Dai un'occhiata alle certificazioni AI e ML BlackBelt di DataPeaker Più Programma
Se hai qualche domanda, fammi sapere nella sezione commenti!
Imparentato
Articoli correlati:
- Etichetta della parte del discorso (POS) | Analisi delle dipendenze
- Modulo del sistema operativo Python | Il 30 I metodi più utili del modulo del sistema operativo Python
- Applicazioni di elaborazione del linguaggio naturale (PNL)
- Una descripción general simple del aprendizaje profundo del perceptrón multicapa (MLP)