Analyse syntaxique | Guide pour maîtriser le traitement automatique du langage naturel (Partie 11)

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données

introduction

Cet article fait partie d'une série de blogs en cours sur le traitement du langage naturel (PNL). Dans l'article précédent, nous discutons d'une technique d'extraction d'entités appelée, par exemple, Reconnaissance des entités nommées. Il existe également une autre technique d'extraction d'entités qui est également une technique populaire appelée Modélisation thématique, dont nous discuterons dans des articles ultérieurs de notre série de blogs.

Ensuite, dans cet article, nous allons approfondir l'analyse syntaxique, qui est l'un des niveaux cruciaux de la PNL.

C'est la partie 11 de la série de blogs sur le Guide étape par étape du traitement du langage naturel.

Table des matières

1. Qu'est-ce que l'analyse?

2. Quelle est la différence entre l'analyse et le lexique?

3. Qu'est-ce qu'un analyseur?

4. Quels sont les différents types d'analyseurs?

5. Qu'est-ce que le shunt et ses types?

6. Quels sont les types d'analyse basée sur la dérivation?

7. Qu'est-ce qu'un arbre d'analyse?

Qu'est-ce que l'analyse?

L'analyse syntaxique est définie comme l'analyse qui nous indique le sens logique des phrases données avec certitude ou des parties de ces phrases. Il faut aussi tenir compte des règles de grammaire pour définir le sens logique et l'exactitude des phrases.

O, en mots simples, l'analyse est le processus d'analyse du langage naturel avec les règles de la grammaire formelle. Nous appliquons les règles de grammaire uniquement aux catégories et groupes de mots, ne s'applique pas aux mots individuels.

L'analyse syntaxique attribue essentiellement une structure sémantique au texte. Aussi connu sous le nom d'analyse ou d'analyse. Le mot "analyse’ Il vient du mot latin 'pars’ que signifie 'partir'. L'analyse syntaxique traite de la syntaxe du langage naturel. Les règles de grammaire ont été utilisées dans l'analyse syntaxique.

Prenons un exemple pour mieux comprendre:

Considérez la phrase suivante:

Phrase: L'école va un garçon 

La phrase précédente ne transmet pas logiquement son sens et sa structure grammaticale n'est pas correcte. Ensuite, l'analyse syntaxique nous dit si une phrase particulière transmet ou non son sens logique et si sa structure grammaticale est correcte ou non.

Comment nous discutons des étapes ou des différents niveaux de la PNL, le troisième niveau de la PNL est l'analyse ou l'analyse ou la syntaxe. L'objectif principal de ce niveau est d'extraire le sens exact, ou en mots simples, peut dire trouver le sens du dictionnaire à partir du texte. L'analyse syntaxique vérifie la signification du texte par rapport aux règles de la grammaire formelle.

Par exemple, considérer la phrase suivante

Phrase: "glace chaude" 

La phrase ci-dessus serait rejetée par l'analyseur sémantique.

À présent, définissons formellement l'analyse,

Dans le sens ci-dessus, l'analyse ou l'analyse peut être définie comme le processus d'analyse de chaînes de symboles en langage naturel selon les règles de la grammaire formelle.

Différence entre l'analyse lexicale et syntaxique

Le but de l'analyse lexicale est le nettoyage des données et l'extraction de caractéristiques à l'aide de techniques telles que

  • Dérivé,
  • Lématisation,
  • Corriger les mots mal orthographiés, etc.

D'autre part, dans l'analyse, notre objectif est:

  • Trouver les rôles que jouent les mots dans une phrase,
  • Interpréter la relation entre les mots,
  • Interpréter la structure grammaticale des phrases.

Considérons l'exemple suivant avec 2 prières:

Phrases:
Patna est la capitale du Bihar.
Patna est-elle la capitale du Bihar?

Dans les deux phrases, tous les mots sont les mêmes, mais seule la première phrase est syntaxiquement correcte et facilement compréhensible.

Mais nous ne pouvons pas faire ces distinctions en utilisant des techniques de traitement lexical de base.. Donc, nous avons besoin de techniques de traitement syntaxique plus sophistiquées pour comprendre la relation entre les mots individuels dans une phrase.

L'analyse syntaxique considère les aspects suivants de la phrase que le lexique ne prend pas en compte:

Ordre et sens des mots

L'analyse syntaxique vise à extraire la dépendance des mots avec d'autres mots dans le document. Si on change l'ordre des mots, il sera difficile de comprendre la phrase.

Arrêter la rétention de mot

Si on enlève les mots vides, peut changer complètement le sens d'une phrase.

Morphologie des mots

Stemming et stemming amèneront les mots à leur forme de base, modifiant ainsi la grammaire de la phrase.

Parties du discours pour les mots dans une phrase

Il est important d'identifier la bonne partie grammaticale d'un mot.

Par exemple, Considérez les phrases suivantes:

"coupe à la main" (Ici ‘coupe’ est un nom) 
"il coupe un ananas" (Ici, "couper" est un verbe)

Qu'est-ce qu'un analyseur?

L'analyseur est utilisé pour implémenter la tâche d'analyse.

À présent, Voyons ce qu'est exactement un parseur.

Il est défini comme le composant logiciel conçu pour prendre des données de texte d'entrée et fournit une représentation structurelle de l'entrée après avoir vérifié la syntaxe correcte à l'aide de la grammaire formelle.. Il génère également une structure de données généralement sous la forme d'un arbre d'analyse syntaxique ou d'un arbre de syntaxe abstraite ou d'une autre structure hiérarchique..

top2bdown2banalyse-1037540

Source de l'image: Google images

On peut comprendre la pertinence du parsing en PNL à l'aide des points suivants:

  • L'analyseur peut être utilisé pour signaler toute erreur de syntaxe.
  • Aide à récupérer des erreurs courantes afin que le traitement du reste du programme puisse continuer.
  • Un arbre d'analyse est créé à l'aide d'un parseur.
  • L'analyseur est utilisé pour créer une table de symboles, qui joue un rôle important dans la PNL.
  • Un analyseur est également utilisé pour produire des représentations intermédiaires (RI).

Différents types d'analyseurs

Comme indiqué, Essentiellement, un analyseur est une interprétation procédurale de la grammaire. Essayez de trouver un arbre optimal pour une phrase particulière après avoir recherché l'espace pour une variété d'arbres.

Jetons un coup d'œil à certains des analyseurs disponibles:

  • Analyseur de descente récursive
  • Analyseur de réduction de casse
  • Analyseur graphique
  • Analyseur d'expressions régulières

Analyseur de descente récursive

C'est l'une des formes les plus simples d'analyse. Quelques points importants sur l'analyseur de descente récursive sont les suivants:

  • Suivre un processus descendant.
  • Essayez de vérifier si la syntaxe du flux d'entrée est correcte ou non.
  • Scanne le texte saisi de gauche à droite.
  • L'opération requise pour ce type d'analyseur syntaxique est de balayer les caractères du flux d'entrée et de les relier aux terminaux à l'aide de la grammaire..

Analyseur de réduction de casse

Certains des points importants sur l'analyseur de réduction de décalage sont les suivants:

  • Suivez un processus simple de bas en haut.
  • Votre objectif est de trouver la séquence de mots et de phrases qui correspond au côté droit d'une production de grammaire et de les remplacer par le côté gauche de la production..
  • Essayez de trouver une séquence de mots qui continue jusqu'à ce que la phrase entière soit raccourcie.
  • En mots simples, cet analyseur commence par le symbole d'entrée et vise à construire l'arbre d'analyse jusqu'au symbole de départ.

Analyseur graphique

Certains des points importants sur l'analyseur de graphique sont les suivants:

  • Essentiellement, cet analyseur est utile pour les grammaires ambiguës, y compris les grammaires du langage naturel.
  • Applique le concept de programmation dynamique aux problèmes d'analyse.
  • Grâce à la programmation dynamique, stocke des résultats hypothétiques partiels dans une structure appelée “graphique”.
  • Le graphique’ peut également être réutilisé dans différents scénarios.

Analyseur d'expressions régulières

C'est l'un des parseurs les plus utilisés. Certains des points importants sur l'analyseur Regexp sont les suivants:

  • Utilise une expression régulière définie sous forme grammaticale en haut d'une chaîne intitulée POS.
  • Essentiellement, utilisez ces expressions régulières pour analyser les phrases d'entrée et produire un arbre d'analyse à partir de ce.

Qu'est-ce que le contournement?

Nous avons besoin d'une séquence de règles de production pour obtenir la chaîne d'entrée. La dérivation est un ensemble de règles de production. Pendant l'analyse, nous devons décider du non-terminal, qui sera remplacé en même temps que la décision de règle de production à l'aide de laquelle le non-terminal sera remplacé.

Types de contournement

Dans cette section, nous allons discuter des deux types de dérivations, qui peut être utilisé pour décider quel non-terminal remplacer par la règle de production:

Contourner le plus à gauche

Dans la rocade la plus à gauche, la forme énonciative saisie est numérisée et remplacée de gauche à droite. Dans ce cas, la forme de phrase est connue comme la forme de phrase de gauche.

Contournement le plus à droite

Dans la rocade la plus à gauche, la forme de la phrase saisie est numérisée et remplacée de droite à gauche. Dans ce cas, la forme de la phrase s'appelle la forme de la phrase juste.

Types d'analyse

La dérivation divise l'analyse en deux types suivants:

compilateur-conception-analyse-types-1864964

Source de l'image: Google images

Analyse descendante

En analyse descendante, l'analyseur commence à produire l'arbre d'analyse à partir du symbole de départ, puis essaie de transformer le symbole de départ en entrée. La forme la plus courante d'analyse descendante utilise la procédure récursive pour traiter l'entrée, mais son principal inconvénient est arrière.

Analyse ascendante

En analyse ascendante, l'analyseur commence à travailler avec le symbole d'entrée et essaie de construire l'arbre de l'analyseur jusqu'au symbole de départ.

Qu'est-ce qu'un arbre d'analyse?

Représente la représentation graphique d'une dérivation. Le symbole de départ de la dérivation est considéré comme le nœud racine de l'arbre d'analyse et les nœuds feuilles sont terminaux et les nœuds intérieurs sont non terminaux.

La propriété la plus utile de l'arbre d'analyse est que le visite dans l'ordre de l'arbre produira la chaîne d'entrée d'origine.

Par exemple, Considérez la phrase suivante:

Phrase: le chien a vu un homme dans le parc

Après avoir analysé la phrase, l'arbre d'analyse généré est présenté ci-dessous:

ch08-arbre-4-2877785

Source de l'image: Google images

Ceci termine notre partie 11 de la série de blogs sur le traitement du langage naturel!

D'autres articles de mon blog

Vous pouvez également consulter mes précédents articles de blog.

Anciens articles de blog sur la science des données.

LinkedIn

C'est ici mon profil Linkedin au cas où vous voudriez me joindre. Je serai heureux d'être connecté avec vous.

Courrier électronique

Pour toute requête, vous pouvez m'envoyer un email à Gmail.

Remarques finales

Merci pour la lecture!

j'espère que l'article vous a plu. Si ça te plaît, partagez-le avec vos amis aussi. Tout ce qui n'est pas mentionné ou voulez-vous partager vos pensées? N'hésitez pas à commenter ci-dessous et je vous répondrai. ??

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.