Guide du traitement du langage naturel en Python (Partie -1)

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données

introduction

Les ordinateurs et les machines sont parfaits pour travailler avec des données tabulaires ou des feuilles de calcul. Cependant, les humains communiquent généralement par des mots et des phrases, pas sous forme de tableaux ou de feuilles de calcul, et la plupart des informations que les humains parlent ou écrivent sont présentes de manière non structurée. Pourtant, il n'est pas très compréhensible que les ordinateurs interprètent ces langues.

Donc, dans le traitement du langage naturel (PNL), notre objectif est de rendre compréhensible le texte informatique non structuré et d'en extraire des informations significatives.

Définissons formellement le traitement du langage naturel (PNL),

Traitement du langage naturel (PNL) est un sous-domaine de intelligence artificielle, impliquant des interactions ordinateur-humain.

Ensuite, dans cet article, nous discuterons de certains des concepts de base liés à la PNL. Cet article fait partie d'une série de blogs sur le traitement du langage naturel (PNL).

C'est la partie 1 de la série de blogs sur le Guide étape par étape du traitement du langage naturel.

Note importante

Après avoir terminé certains sujets, il y a des questions pratiques (Testez vos connaissances) puisque vous devez résoudre et donner la réponse dans la zone de commentaire afin que vous puissiez vérifier votre compréhension d'un sujet particulier.

Table des matières

1. Qu'est-ce que le traitement du langage naturel (PNL)?

2. Applications de traitement du langage naturel

3. Comprendre le traitement du langage naturel

4. Différence entre la PNL basée sur des règles et la PNL basée sur les statistiques

5. Composants du traitement du langage naturel

6. Ambiguïté et incertitude dans le traitement du langage naturel

Qu'est-ce que le traitement du langage naturel?

Traitement du langage naturel (PNL) est un sous-domaine de l'informatique et de l'intelligence artificielle qui traite des interactions entre les ordinateurs et les langues humaines (Naturel). Cela devient crucial lorsque nous voulons appliquer des algorithmes de machine learning ou de deep learning à un ensemble de données contenant du texte et de la parole..

Par exemple, nous pouvons utiliser la PNL pour créer des systèmes d'intelligence artificielle comme,

  • Reconnaissance vocale,
  • Résumé des documents,
  • Machine à traduire,
  • Détection de spam,
  • Reconnaissance d'entité nommée,
  • Réponse aux questions,
  • Saisie automatique,
  • Écriture prédictive, etc.

Actuellement, la plupart de nos smartphones ont un système de reconnaissance vocale. Ces smartphones utilisent la PNL pour comprendre le langage naturel et donner la réponse. En outre, la plupart des gens utilisent des ordinateurs portables dont le système d'exploitation dispose d'une reconnaissance vocale intégrée.

Testez vos connaissances

Lequel des domaines suivants est le domaine du traitement du langage naturel?

  • informatique
  • Intelligence artificielle
  • Linguistique informatique
  • Tout ce qui précède

Applications PNL

Certaines applications du traitement du langage naturel sont les suivantes:

Cortana

1txj0kr4jvrtltmvxzfu8lw-9927551

Source de l'image: Google images

Le système d'exploitation de Microsoft dispose d'un assistant virtuel appelé Cortana qui peut reconnaître une voix naturelle. Ses applications incluent

  • Définir des rappels
  • Ouvrir les candidatures,
  • Envoyer un e-mail à n'importe qui,
  • Jouez à des jeux pour vous divertir,
  • Suivi des vols et colis,
  • Consulter la météo, etc.

Si vous voulez en savoir plus sur les commandes Cortana, voir le lien ici.

Siri

1-aukczbxivohi-agx4j8pq-7097538

Source de l'image: Google images

Siri est un assistant virtuel créé par les systèmes d'exploitation iOS, watchOS, macOS, HomePod y tvOS de Apple Inc. Encore, avec cela, vous pouvez faire beaucoup de choses avec des commandes vocales:

  • Démarrer un appel avec n'importe qui
  • Envoyer un SMS à quelqu'un
  • Envoyer un courrier électronique
  • Définir une minuterie
  • Prendre une photo
  • Ouvrir une application
  • Mettre une alarme
  • Utiliser la navigation, etc.

Ici est une liste complète de toutes les commandes Siri.

Gmail

1ftphu7pqgibnngbwg5zfwa-1381652

Source de l'image: Google images

Gmail est le célèbre service de messagerie développé par Google et utilise la détection de spam pour filtrer certains spams par traitement de texte, dans lequel vous obtenez les textes de cet e-mail particulier que vous essayez de trouver comme spam ou non.

Testez vos connaissances

Parmi les exemples suivants, lesquels sont des cas d'utilisation de la PNL ??

  • Détecter des objets à partir d'une image
  • La reconnaissance faciale
  • Parole biométrique
  • Résumé du texte

Comprendre le traitement du langage naturel

Comprendre le traitement du langage naturel

Source de l'image: Google images

NOUS, comme des êtres humains, ce n'est pas une tâche très difficile d'effectuer le traitement du langage naturel (PNL), mais reste, nous ne sommes pas parfaits. Nous comprenons souvent mal une chose pour une autre et, souvent, nous interprétons les mêmes phrases ou mots d'une manière différente.

Par exemple, Considérez les phrases suivantes et essayez de comprendre leur interprétation de différentes manières:

Exemple 1

Phrase: J'ai vu un étudiant sur une colline avec un microscope.

Ce sont diverses interprétations de la phrase précédente ci-dessous:

  • Il y a un étudiant sur la colline et je l'ai regardé avec mon microscope.
  • Il y a un étudiant sur la colline et il a un microscope.
  • Je suis sur une colline et j'ai vu un étudiant utiliser mon microscope.
  • Je suis sur une colline et j'ai vu un étudiant qui a un microscope.
  • Il y a un étudiant sur une colline et j'ai vu quelque chose avec mon microscope.

Exemple 2

Phrase: Pouvez-vous m'aider avec le bidon?

Dans la phrase précédente, on observe qu'il y a deux mots “pouvez”, mais ils ont des significations différentes. Ici.

Le premier mot “il peut” est utilisé pour former une question.

Le deuxième mot “années” qui est utilisé à la fin de la phrase est utilisé pour représenter un récipient qui contient des choses comme de la nourriture ou des liquides, etc.

Quelles conclusions pouvons-nous déduire des deux exemples précédents?

A partir des deux exemples ci-dessus, nous pouvons voir que le traitement du langage n'est pas “déterministe”, c'est-à-dire, la même langue a les mêmes interprétations, et quelque chose qui convient à une personne peut ne pas convenir à une autre. Donc, traitement du langage naturel (PNL) a une approche non déterministe.

En mots simples, nous pouvons utiliser le traitement du langage naturel pour créer un nouveau système intelligent ou d'IA qui peut comprendre de la même manière que l'homme et interpréter le langage dans différentes situations.

Différence entre la PNL basée sur des règles et la PNL statistique

Le traitement du langage naturel est divisé en deux approches différentes:

Traitement du langage naturel basé sur des règles

Utilise un raisonnement de bon sens pour traiter les tâches.

Par exemple,

  • Les températures glaciales peuvent causer la mort ou
  • Le café chaud peut brûler la peau des gens
  • Quelques autres tâches de raisonnement de bon sens, etc.

Cependant, ces processus peuvent prendre plus de temps et nécessiter un effort manuel.

Traitement statistique du langage naturel

Ce type de PNL utilise de grandes quantités de données et vise à en tirer des conclusions. Pour former des modèles PNL, utilise des algorithmes d'apprentissage automatique. Après avoir terminé le processus de formation sur de grandes quantités de données, le modèle formé aura des résultats positifs avec déduction.

Comparaison (avantages et les inconvénients)

Comparaison (avantages et les inconvénients)

Composants de la PNL

Les deux composants de base en lesquels la PNL peut être divisée sont les suivants:

  • Compréhension du langage naturel (NLU)
  • Génération du langage naturel (GNL)

Composants de la PNL

Source de l'image: Google images

Compréhension du langage naturel (NLU)

NLU est naturellement plus difficile que les tâches NLG. Regardons les défis auxquels une machine est confrontée lorsqu'elle essaie de comprendre le langage naturel.

Lorsque vous apprenez ou essayez d'interpréter une langue, il y a beaucoup d'ambiguïtés.

Phrase: Il cherche un match.

Ici, Qu'entendez-vous par “rencontre” – Match de couple ou cricket / football.

Ambiguïté lexicale peut se produire lorsqu'un mot a un sens différent, c'est-à-dire, a plus d'un sens, et la phrase dans laquelle ce mot est utilisé peut être interprétée différemment en fonction de son sens correct. Pour résoudre dans une certaine mesure ces types d'ambiguïtés, nous pouvons utiliser des techniques de marquage de parties de discours.

Phrase: Le poulet est prêt à manger.

Le poulet est-il prêt à manger votre nourriture ou le poulet est-il prêt à être mangé par quelqu'un d'autre ?? On ne sait jamais.

Ambiguïté syntaxique se produit lorsque nous observons qu'il peut y avoir plus d'un sens dans une séquence de mots. Aussi connu sous le nom d'ambiguïté grammaticale.

Phrase: Chirag a rencontré Kshitiz et Dinesh. Ils sont allés au restaurant.

Ici, se référer à Kshitiz et Dinesh ou à tous.

Ambiguïté référentielle: Très souvent dans un texte une entité est mentionnée (quelque chose / quelqu'un) puis il est à nouveau référencé, éventuellement dans une phrase différente, à l'aide d'un autre mot. Ensuite, ces différents pronoms peuvent provoquer une ambiguïté lorsqu'il n'est pas clair à quel nom vous faites référence.

Génération du langage naturel (GNL)

Il est défini comme le processus de génération ou d'extraction de phrases et de phrases significatives sous forme de langage naturel à l'aide d'une représentation interne..

Ce composant comprend les trois étapes de base:

  • Planification de texte: Cela implique la récupération d'informations pertinentes à partir de la base de connaissances.
  • Planification de la peine: Cela implique des processus tels que le choix des mots requis, former des phrases significatives, donner le ton de la phrase.
  • Réalisation de texte: Implique la cartographie des plans de prière dans la structure de la phrase.

Testez vos connaissances

Question 1: La PNL est divisée en deux sous-domaines:

  • symbolique et numérique
  • algorithmique et heuristique
  • temps et mouvement
  • compréhension et génération

Question 2: Lequel des éléments suivants est utilisé pour mapper les plans de phrases dans la structure de la phrase ??

  • Planification de texte
  • Planification de la peine
  • Réalisation de texte
  • Tout ce qui précède

Ambiguïté et incertitude en PNL

Dans le traitement du langage naturel, l'ambiguïté peut être appelée la capacité d'être compris de plusieurs manières. En termes simples, nous pouvons comprendre l'ambiguïté concernant la capacité d'être compris de plusieurs manières. Le langage naturel est très ambigu.

La PNL a les cinq types d'ambiguïtés suivants:

Ambiguïté lexicale

L'ambiguïté lexicale est l'ambiguïté impliquée par l'ambiguïté d'un seul mot.

Par exemple, Considérons les phrases suivantes:

Elle a remporté deux médailles d'argent
Elle a fait un discours d'argent
Ses soucis avaient argenté ses cheveux

Dans les phrases précédentes, comment nous traitons le mot argent- Comme nom, un adjectif ou un verbe.

Ambiguïté syntaxique

L'ambiguïté syntaxique se produit lorsqu'une phrase est analysée de différentes manières.

Par exemple, Faisons une prière

Phrase: L'homme a vu la fille avec le microscope

Cette phrase est ambiguë car:

si l'homme a vu la fille au microscope ou à travers son microscope.

Ambiguïté sémantique

Ce type d'ambiguïté se produit lorsque le sens des mots eux-mêmes peut être mal interprété. En mots simples, l'ambiguïté sémantique se produit lorsqu'une phrase contient un mot ou une expression ambiguë.

Par exemple, Faisons une prière

Phrase: Le bus a heurté le poteau pendant qu'il se déplaçait

La phrase précédente a une ambiguïté sémantique car cette phrase peut avoir deux interprétations

  • “Le bus en mouvement a heurté le poteau”
  • "Le bus est entré en collision avec le poteau alors que le poteau se déplaçait".

Ambiguïté anaphorique

Anaphora signifie lorsque le même début d'une phrase est répété plusieurs fois et qu'une ambiguïté anaphorique se produit en raison de l'utilisation d'entités anaphora dans le discours.

Par exemple, Faisons un groupe de prières:

Phrase: Le chien a couru jusqu'à la colline. C'était très raide. Il s'est vite fatigué. 

Ici, la référence anaphorique de “ce” dans deux situations provoque l'ambiguïté.

Ambiguïté pragmatique

Ces types d'ambiguïtés se produisent lorsque le contexte d'une phrase lui donne de multiples interprétations. En mots simples, on peut dire que ces ambiguïtés surviennent lorsque l'énoncé n'est pas spécifique.

Par exemple, Faisons une prière

Phrase: je vous aime aussi

qui peut avoir plusieurs interprétations comme:

  • Tu me plais (comment tu m'aimes)
  • Tu me plais (comme les autres).

Ceci termine notre partie 1 de la série de blogs sur le traitement du langage naturel!

Remarques finales

Merci pour la lecture!

Si vous avez aimé cela et que vous voulez en savoir plus, visitez mes autres articles sur la science des données et l'apprentissage automatique en cliquant sur le Relier

N'hésitez pas à me contacter au Linkedin, Courrier électronique.

Tout ce qui n'est pas mentionné ou voulez-vous partager vos pensées? N'hésitez pas à commenter ci-dessous et je vous répondrai.

A propos de l'auteur

Chirag Goyal

Actuellement, Je poursuis mon Bachelor of Technology (B.Tech) en informatique et ingénierie de Institut indien de technologie Jodhpur (IITJ). Je suis très enthousiasmé par l'apprentissage automatique, apprentissage profond et intelligence artificielle.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.