Guía para el procesamiento del lenguaje natural en Python (Parte -1)

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos

Introducción

Las computadoras y las máquinas son excelentes para trabajar con datos tabulares u hojas de cálculo. Sin embargo, los seres humanos generalmente se comunican en palabras y oraciones, no en forma de tablas u hojas de cálculo, y la mayor parte de la información que los humanos hablan o escriben está presente de manera desestructurada. Por tanto, no es muy comprensible que las computadoras interpreten estos lenguajes.

Por lo tanto, en el procesamiento del lenguaje natural (PNL), nuestro objetivo es hacer que el texto no estructurado de la computadora sea comprensible y recuperar información significativa de él.

Definamos formalmente el procesamiento del lenguaje natural (PNL),

El procesamiento del lenguaje natural (PNL) es un subcampo de inteligencia artificial, que involucra las interacciones entre computadoras y humanos.

Entonces, en este artículo, discutiremos algunos de los conceptos básicos relacionados con la PNL. Este artículo es parte de una serie de blogs sobre procesamiento del lenguaje natural (PNL).

Esta es la parte 1 de la serie de blogs sobre la Guía paso a paso para el procesamiento del lenguaje natural.

Nota IMPORTANTE

Después de completar algunos temas, hay algunas preguntas de práctica (Ponga a prueba su conocimiento) dado que debe resolver y dar la respuesta en el cuadro de comentarios para que pueda verificar su comprensión de un tema en particular.

Tabla de contenido

1. ¿Qué es el procesamiento del lenguaje natural (PNL)?

2. Aplicaciones del procesamiento del lenguaje natural

3. Comprensión del procesamiento del lenguaje natural

4. Diferencia entre la PNL basada en reglas y la PNL basada en estadísticas

5. Componentes del procesamiento del lenguaje natural

6. Ambigüedad e incertidumbre en el procesamiento del lenguaje natural

¿Qué es el procesamiento del lenguaje natural?

Procesamiento natural del lenguaje (PNL) es un subcampo de la informática y la inteligencia artificial que se ocupa de las interacciones entre las computadoras y los lenguajes humanos (naturales). Esto se vuelve crucial cuando queremos aplicar algoritmos de aprendizaje automático o aprendizaje profundo a un conjunto de datos que contiene texto y voz.

Por ejemplo, podemos usar la PNL para crear sistemas de inteligencia artificial como,

  • Reconocimiento de voz,
  • Resumen de documentos,
  • Máquina traductora,
  • Detección de spam,
  • Reconocimiento de entidad nombrada,
  • Respuesta a preguntas,
  • Autocompletar,
  • Escritura predictiva, etc.

En la actualidad, la mayoría de nuestros teléfonos inteligentes tienen un sistema de reconocimiento de voz. Estos teléfonos inteligentes usan PNL para comprender el lenguaje natural y dar la respuesta. Además, la mayoría de las personas usan computadoras portátiles cuyo sistema operativo tiene reconocimiento de voz incorporado.

Prueba tus conocimientos

¿Cuál de las siguientes opciones es el campo del procesamiento del lenguaje natural?

  • Ciencias de la Computación
  • Inteligencia artificial
  • Ligüística computacional
  • Todo lo anterior

Aplicaciones de la PNL

Algunas aplicaciones del procesamiento del lenguaje natural son las siguientes:

Cortana

1txj0kr4jvrtltmvxzfu8lw-9927551

Fuente de la imagen: imágenes de Google

El sistema operativo de Microsoft tiene un asistente virtual llamado Cortana que pueda reconocer una voz natural. Sus aplicaciones incluyen

  • Configurar recordatorios
  • Aplicaciones abiertas,
  • Envíe correos electrónicos a cualquiera,
  • Juega juegos para entretenerte,
  • Seguimiento de vuelos y paquetes,
  • Verifique el clima, etc.

Si desea leer más sobre los comandos de Cortana, consulte el enlace aquí.

Siri

1-aukczbxivohi-agx4j8pq-7097538

Fuente de la imagen: Google Images

Siri es un asistente virtual creado por los sistemas operativos iOS, watchOS, macOS, HomePod y tvOS de Apple Inc. Nuevamente, con esto puedes hacer muchas cosas con comandos de voz:

  • Iniciar una llamada con cualquiera
  • Enviar un mensaje de texto a alguien
  • Enviar un correo electrónico
  • Establecer un temporizador
  • Toma una foto
  • Abrir una aplicación
  • Configurar una alarma
  • Utilice la navegación, etc.

Aquí es una lista completa de todos los comandos de Siri.

Gmail

1ftphu7pqgibnngbwg5zfwa-1381652

Fuente de la imagen: imágenes de Google

Gmail es el famoso servicio de correo electrónico desarrollado por Google y utiliza la detección de correo no deseado para filtrar algunos correos electrónicos no deseados mediante el procesamiento de texto, en el que obtiene los textos de ese correo en particular que intenta encontrar como correo no deseado o no.

Prueba tus conocimientos

¿Cuáles de los siguientes son casos de uso de PNL?

  • Detectar objetos a partir de una imagen
  • Reconocimiento facial
  • Biométrico del habla
  • Resumen de texto

Comprensión del procesamiento del lenguaje natural

Comprensión del procesamiento del lenguaje natural

Fuente de la imagen: imágenes de Google

Nosotros, como seres humanos, no es una tarea muy difícil realizar el procesamiento del lenguaje natural (PNL), pero aun así, no somos perfectos. A menudo malinterpretamos una cosa por otra y, a menudo, interpretamos las mismas oraciones o palabras de una manera diferente.

Por ejemplo, considere las siguientes oraciones e intente comprender su interpretación de muchas formas diferentes:

Ejemplo 1

Sentence: I saw a student on a hill with a microscope.

Estas son varias interpretaciones de la oración anterior que se muestran a continuación:

  • Hay un estudiante en la colina y lo miré con mi microscopio.
  • Hay un estudiante en la colina y tiene un microscopio.
  • Estoy en una colina y vi a un estudiante usando mi microscopio.
  • Estoy en una colina y vi a un estudiante que tiene un microscopio.
  • Hay un estudiante en una colina y le vi algo con mi microscopio.

Ejemplo 2

Sentence: Can you help me with the can?

En la oración anterior, observamos que hay dos palabras «can», pero tienen diferentes significados. Aquí.

La primera palabra «puede» se usa para formar una pregunta.

La segunda palabra «lata» que se usa al final de la oración se usa para representar un recipiente que contiene algunas cosas como alimentos o líquidos, etc.

¿Qué conclusiones podemos inferir de los dos ejemplos anteriores?

De los dos ejemplos anteriores, podemos observar que el procesamiento del lenguaje no es «determinista», es decir, el mismo lenguaje tiene las mismas interpretaciones, y algo adecuado para una persona puede no ser adecuado para otra. Por lo tanto, el procesamiento del lenguaje natural (NLP) tiene un enfoque no determinista.

En palabras simples, podemos utilizar el Procesamiento del Lenguaje Natural para crear un nuevo sistema inteligente o de IA que pueda comprender de la misma manera que el humano e interpretar el lenguaje en diferentes situaciones.

Diferencia entre la PNL basada en reglas y la PNL estadística

El procesamiento del lenguaje natural se divide en dos enfoques diferentes:

Procesamiento de lenguaje natural basado en reglas

Utiliza el razonamiento de sentido común para procesar tareas.

Por ejemplo,

  • La temperatura de congelación puede provocar la muerte o
  • El café caliente puede quemar la piel de las personas
  • Algunas otras tareas de razonamiento de sentido común, etc.

Sin embargo, estos procesos pueden llevar más tiempo y requieren un esfuerzo manual.

Procesamiento estadístico del lenguaje natural

Este tipo de PNL utiliza grandes cantidades de datos y tiene como objetivo derivar conclusiones de ellos. Para entrenar modelos de PNL, utiliza algoritmos de aprendizaje automático. Después de completar el proceso de capacitación en grandes cantidades de datos, el modelo entrenado tendrá resultados positivos con deducción.

Comparación (pros y contras)

Comparación (pros y contras)

Componentes de la PNL

Los dos componentes básicos en los que se puede dividir la PNL son los siguientes:

  • Comprensión del lenguaje natural (NLU)
  • Generación de lenguaje natural (NLG)

Componentes de la PNL

Fuente de la imagen: imágenes de Google

Comprensión del lenguaje natural (NLU)

NLU es naturalmente más difícil que las tareas NLG. Analicemos los desafíos que enfrenta una máquina mientras intenta comprender el lenguaje natural.

Al aprender o intentar interpretar un idioma, existen muchas ambigüedades.

Sentence: He is looking for a match.

Aquí, ¿qué entiendes por «fósforo» – Partido de pareja o de críquet / fútbol.

Ambigüedad léxica puede ocurrir cuando una palabra tiene un sentido diferente, es decir, tiene más de un significado, y la oración en la que se usa esa palabra puede interpretarse de manera diferente en función de su sentido correcto. Para resolver este tipo de ambigüedades hasta cierto punto, podemos utilizar técnicas de etiquetado de partes de la oración.

Sentence: The chicken is ready to eat.

¿Está el pollo listo para comer su comida o el pollo está listo para que lo haga otra persona? Nunca sabes.

Ambigüedad sintáctica ocurre cuando observamos que puede haber más de un significado en una secuencia de palabras. También se conoce como ambigüedad gramatical.

Sentence: Chirag met Kshitiz and Dinesh. They went to a restaurant.

Aquí, se refieren a Kshitiz y Dinesh o todos.

Ambigüedad referencial: Muy a menudo en un texto se menciona una entidad (algo / alguien) y luego se hace referencia a ella nuevamente, posiblemente en una oración diferente, con la ayuda de otra palabra. Entonces, estos diferentes pronombres pueden causar ambigüedad cuando no está claro a qué sustantivo se refiere.

Generación de lenguaje natural (NLG)

Se define como el proceso de generar o extraer algunas frases y oraciones significativas en forma de lenguaje natural con la ayuda de alguna representación interna.

Este componente incluye los tres pasos básicos:

  • Planificación de textos: Implica la recuperación de la información relevante de la base de conocimientos.
  • Planificación de sentencias: Implica procesos como elegir las palabras requeridas, formar frases significativas, establecer el tono de la oración.
  • Realización de texto: Implica el mapeo de los planes de la oración en la estructura de la oración.

Prueba tus conocimientos

Pregunta 1: La PNL se divide en dos subcampos:

  • simbólico y numérico
  • algorítmico y heurístico
  • tiempo y movimiento
  • comprensión y generación

Pregunta 2: ¿Cuál de los siguientes se utiliza para mapear planes de oraciones en la estructura de oraciones?

  • Planificación de textos
  • Planificación de sentencias
  • Realización de texto
  • Todas las anteriores

Ambigüedad e incertidumbre en la PNL

En el procesamiento del lenguaje natural, se puede hacer referencia a la ambigüedad como la capacidad de ser entendido de más de una forma. En términos simples, podemos entender la ambigüedad en cuanto a la capacidad de ser entendido de más de una forma. El lenguaje natural es muy ambiguo.

La PNL tiene los siguientes cinco tipos de ambigüedades:

Ambigüedad léxica

La ambigüedad léxica es la ambigüedad que implica la ambigüedad de una sola palabra.

Por ejemplo, Consideremos las siguientes oraciones:

She won two silver medals
She made a silver speech
His worries had silvered his hair

En las oraciones anteriores, cómo tratamos la palabra plata- como un sustantivo, un adjetivo o un verbo.

Ambigüedad sintáctica

La ambigüedad sintáctica ocurre cuando una oración se analiza de diferentes maneras.

Por ejemplo, Tengamos una oración

Sentence: The man saw the girl with the microscope

Esta oración es ambigua como:

si el hombre vio a la niña con un microscopio o la vio a través de su microscopio.

Ambigüedad semántica

Este tipo de ambigüedades se produce cuando se puede malinterpretar el significado de las propias palabras. En palabras simples, la ambigüedad semántica ocurre cuando una oración contiene una palabra o frase ambigua.

Por ejemplo, Tengamos una oración

Sentence: The bus hit the pole while it was moving

La oración anterior tiene ambigüedad semántica porque esta oración puede tener dos interpretaciones

  • «El autobús en movimiento golpeó el poste»
  • “El autobús chocó contra el poste mientras el poste se movía”.

Ambigüedad anafórica

Anáfora significa cuando el mismo comienzo de una oración se repite varias veces y se produce una ambigüedad anafórica debido al uso de entidades anáforas en el discurso.

Por ejemplo, Tengamos un grupo de oraciones:

Sentence: The dog ran up the hill. It was very steep. It soon got tired. 

Aquí, la referencia anafórica de «eso» en dos situaciones provoca ambigüedad.

Ambigüedad pragmática

Este tipo de ambigüedades ocurren cuando el contexto de una frase le da múltiples interpretaciones. En palabras simples, podemos decir que estas ambigüedades surgen cuando el enunciado no es específico.

Por ejemplo, Tengamos una oración

Sentence: I like you too

que puede tener múltiples interpretaciones como:

  • Me gustas (como yo te gusto)
  • Me gustas (como a los demás).

¡Esto termina nuestra Parte 1 de la serie de blogs sobre procesamiento del lenguaje natural!

Notas finales

¡Gracias por leer!

Si le gustó esto y quiere saber más, visite mis otros artículos sobre ciencia de datos y aprendizaje automático haciendo clic en el Enlace

No dude en ponerse en contacto conmigo en Linkedin, Correo electrónico.

¿Algo no mencionado o quieres compartir tus pensamientos? No dude en comentar a continuación y me pondré en contacto con usted.

Sobre el Autor

Chirag Goyal

Actualmente, estoy cursando mi Licenciatura en Tecnología (B.Tech) en Ciencias de la Computación e Ingeniería de la Instituto Indio de Tecnología de Jodhpur (IITJ). Estoy muy entusiasmado con el aprendizaje automático, el aprendizaje profundo y la inteligencia artificial.

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.