Este artículo fue publicado como parte del Blogatón de ciencia de datos
Introducción
Las computadoras y las máquinas son excelentes para trabajar con datos tabulares u hojas de cálculo. Sin embargo, los seres humanos generalmente se comunican en palabras y oraciones, no en forma de tablas u hojas de cálculo, y la mayor parte de la información que los humanos hablan o escriben está presente de manera desestructurada. Por tanto, no es muy comprensible que las computadoras interpreten estos lenguajes.
Por lo tanto, en el procesamiento del lenguaje natural (PNL), nuestro objetivo es hacer que el texto no estructurado de la computadora sea comprensible y recuperar información significativa de él.
Definamos formalmente el procesamiento del lenguaje natural (PNL),
El procesamiento del lenguaje natural (PNL) es un subcampo de inteligencia artificial, que involucra las interacciones entre computadoras y humanos.
Entonces, en este artículo, discutiremos algunos de los conceptos básicos relacionados con la PNL. Este artículo es parte de una serie de blogs sobre procesamiento del lenguaje natural (PNL).
Esta es la parte 1 de la serie de blogs sobre la Guía paso a paso para el procesamiento del lenguaje natural.
Nota IMPORTANTE
Después de completar algunos temas, hay algunas preguntas de práctica (Ponga a prueba su conocimiento) dado que debe resolver y dar la respuesta en el cuadro de comentarios para que pueda verificar su comprensión de un tema en particular.
Tabla de contenido
1. ¿Qué es el procesamiento del lenguaje natural (PNL)?
2. Aplicaciones del procesamiento del lenguaje natural
3. Comprensión del procesamiento del lenguaje natural
4. Diferencia entre la PNL basada en reglas y la PNL basada en estadísticas
5. Componentes del procesamiento del lenguaje natural
6. Ambigüedad e incertidumbre en el procesamiento del lenguaje natural
¿Qué es el procesamiento del lenguaje natural?
Procesamiento natural del lenguaje (PNL) es un subcampo de la informática y la inteligencia artificial que se ocupa de las interacciones entre las computadoras y los lenguajes humanos (naturales). Esto se vuelve crucial cuando queremos aplicar algoritmos de aprendizaje automático o aprendizaje profundoEl aprendizaje profundo, una subdisciplina de la inteligencia artificial, se basa en redes neuronales artificiales para analizar y procesar grandes volúmenes de datos. Esta técnica permite a las máquinas aprender patrones y realizar tareas complejas, como el reconocimiento de voz y la visión por computadora. Su capacidad para mejorar continuamente a medida que se le proporcionan más datos la convierte en una herramienta clave en diversas industrias, desde la salud... a un conjunto de datos que contiene texto y voz.
Por ejemplo, podemos usar la PNL para crear sistemas de inteligencia artificial como,
- Reconocimiento de voz,
- Resumen de documentos,
- Máquina traductora,
- Detección de spam,
- Reconocimiento de entidad nombrada,
- Respuesta a preguntas,
- Autocompletar,
- Escritura predictiva, etc.
En la actualidad, la mayoría de nuestros teléfonos inteligentes tienen un sistema de reconocimiento de voz. Estos teléfonos inteligentes usan PNL para comprender el lenguaje natural y dar la respuesta. Además, la mayoría de las personas usan computadoras portátiles cuyo sistema operativo tiene reconocimiento de voz incorporado.
Prueba tus conocimientos
¿Cuál de las siguientes opciones es el campo del procesamiento del lenguaje natural?
- Ciencias de la Computación
- Inteligencia artificial
- Ligüística computacional
- Todo lo anterior
Aplicaciones de la PNL
Algunas aplicaciones del procesamiento del lenguaje natural son las siguientes:
Cortana
Fuente de la imagen: imágenes de Google
El sistema operativo de Microsoft tiene un asistente virtual llamado Cortana que pueda reconocer una voz natural. Sus aplicaciones incluyen
- Configurar recordatorios
- Aplicaciones abiertas,
- Envíe correos electrónicos a cualquiera,
- Juega juegos para entretenerte,
- Seguimiento de vuelos y paquetes,
- Verifique el clima, etc.
Si desea leer más sobre los comandos de Cortana, consulte el enlace aquí.
Siri
Fuente de la imagen: Google Images
Siri es un asistente virtual creado por los sistemas operativos iOS, watchOS, macOS, HomePod y tvOS de Apple Inc. Nuevamente, con esto puedes hacer muchas cosas con comandos de voz:
- Iniciar una llamada con cualquiera
- Enviar un mensaje de texto a alguien
- Enviar un correo electrónico
- Establecer un temporizador
- Toma una foto
- Abrir una aplicación
- Configurar una alarma
- Utilice la navegación, etc.
Aquí es una lista completa de todos los comandos de Siri.
Gmail
Fuente de la imagen: imágenes de Google
Gmail es el famoso servicio de correo electrónico desarrollado por Google y utiliza la detección de correo no deseado para filtrar algunos correos electrónicos no deseados mediante el procesamiento de texto, en el que obtiene los textos de ese correo en particular que intenta encontrar como correo no deseado o no.
Prueba tus conocimientos
¿Cuáles de los siguientes son casos de uso de PNL?
- Detectar objetos a partir de una imagen
- Reconocimiento facial
- Biométrico del habla
- Resumen de texto
Comprensión del procesamiento del lenguaje natural
Fuente de la imagen: imágenes de Google
Nosotros, como seres humanos, no es una tarea muy difícil realizar el procesamiento del lenguaje natural (PNL), pero aun así, no somos perfectos. A menudo malinterpretamos una cosa por otra y, a menudo, interpretamos las mismas oraciones o palabras de una manera diferente.
Por ejemplo, considere las siguientes oraciones e intente comprender su interpretación de muchas formas diferentes:
Ejemplo 1
Sentence: I saw a student on a hill with a microscope.
Estas son varias interpretaciones de la oración anterior que se muestran a continuación:
- Hay un estudiante en la colina y lo miré con mi microscopio.
- Hay un estudiante en la colina y tiene un microscopio.
- Estoy en una colina y vi a un estudiante usando mi microscopio.
- Estoy en una colina y vi a un estudiante que tiene un microscopio.
- Hay un estudiante en una colina y le vi algo con mi microscopio.
Ejemplo 2
Sentence: Can you help me with the can?
En la oración anterior, observamos que hay dos palabras «can», pero tienen diferentes significados. Aquí.
La primera palabra «puede» se usa para formar una pregunta.
La segunda palabra «lata» que se usa al final de la oración se usa para representar un recipiente que contiene algunas cosas como alimentos o líquidos, etc.
¿Qué conclusiones podemos inferir de los dos ejemplos anteriores?
De los dos ejemplos anteriores, podemos observar que el procesamiento del lenguaje no es «determinista», es decir, el mismo lenguaje tiene las mismas interpretaciones, y algo adecuado para una persona puede no ser adecuado para otra. Por lo tanto, el procesamiento del lenguaje natural (NLP) tiene un enfoque no determinista.
En palabras simples, podemos utilizar el Procesamiento del Lenguaje Natural para crear un nuevo sistema inteligente o de IA que pueda comprender de la misma manera que el humano e interpretar el lenguaje en diferentes situaciones.
Diferencia entre la PNL basada en reglas y la PNL estadística
El procesamiento del lenguaje natural se divide en dos enfoques diferentes:
Procesamiento de lenguaje natural basado en reglas
Utiliza el razonamiento de sentido común para procesar tareas.
Por ejemplo,
- La temperatura de congelación puede provocar la muerte o
- El café caliente puede quemar la piel de las personas
- Algunas otras tareas de razonamiento de sentido común, etc.
Sin embargo, estos procesos pueden llevar más tiempo y requieren un esfuerzo manual.
Procesamiento estadístico del lenguaje natural
Este tipo de PNL utiliza grandes cantidades de datos y tiene como objetivo derivar conclusiones de ellos. Para entrenar modelos de PNL, utiliza algoritmos de aprendizaje automático. Después de completar el proceso de capacitación en grandes cantidades de datos, el modelo entrenado tendrá resultados positivos con deducción.
Comparación (pros y contras)
Componentes de la PNL
Los dos componentes básicos en los que se puede dividir la PNL son los siguientes:
- Comprensión del lenguaje natural (NLU)
- Generación de lenguaje natural (NLG)
Fuente de la imagen: imágenes de Google
Comprensión del lenguaje natural (NLU)
NLU es naturalmente más difícil que las tareas NLG. Analicemos los desafíos que enfrenta una máquina mientras intenta comprender el lenguaje natural.
Al aprender o intentar interpretar un idioma, existen muchas ambigüedades.
Sentence: He is looking for a match.
Aquí, ¿qué entiendes por «fósforo» – Partido de pareja o de críquet / fútbol.
Ambigüedad léxica puede ocurrir cuando una palabra tiene un sentido diferente, es decir, tiene más de un significado, y la oración en la que se usa esa palabra puede interpretarse de manera diferente en función de su sentido correcto. Para resolver este tipo de ambigüedades hasta cierto punto, podemos utilizar técnicas de etiquetado de partes de la oración.
Sentence: The chicken is ready to eat.
¿Está el pollo listo para comer su comida o el pollo está listo para que lo haga otra persona? Nunca sabes.
Ambigüedad sintáctica ocurre cuando observamos que puede haber más de un significado en una secuencia de palabras. También se conoce como ambigüedad gramatical.
Sentence: Chirag met Kshitiz and Dinesh. They went to a restaurant.
Aquí, se refieren a Kshitiz y Dinesh o todos.
Ambigüedad referencial: Muy a menudo en un texto se menciona una entidad (algo / alguien) y luego se hace referencia a ella nuevamente, posiblemente en una oración diferente, con la ayuda de otra palabra. Entonces, estos diferentes pronombres pueden causar ambigüedad cuando no está claro a qué sustantivo se refiere.
Generación de lenguaje natural (NLG)
Se define como el proceso de generar o extraer algunas frases y oraciones significativas en forma de lenguaje natural con la ayuda de alguna representación interna.
Este componente incluye los tres pasos básicos:
- Planificación de textos: Implica la recuperación de la información relevante de la base de conocimientos.
- Planificación de sentencias: Implica procesos como elegir las palabras requeridas, formar frases significativas, establecer el tono de la oración.
- Realización de texto: Implica el mapeo de los planes de la oración en la estructura de la oración.
Prueba tus conocimientos
Pregunta 1: La PNL se divide en dos subcampos:
- simbólico y numérico
- algorítmico y heurístico
- tiempo y movimiento
- comprensión y generación
Pregunta 2: ¿Cuál de los siguientes se utiliza para mapear planes de oraciones en la estructura de oraciones?
- Planificación de textos
- Planificación de sentencias
- Realización de texto
- Todas las anteriores
Ambigüedad e incertidumbre en la PNL
En el procesamiento del lenguaje natural, se puede hacer referencia a la ambigüedad como la capacidad de ser entendido de más de una forma. En términos simples, podemos entender la ambigüedad en cuanto a la capacidad de ser entendido de más de una forma. El lenguaje natural es muy ambiguo.
La PNL tiene los siguientes cinco tipos de ambigüedades:
Ambigüedad léxica
La ambigüedad léxica es la ambigüedad que implica la ambigüedad de una sola palabra.
Por ejemplo, Consideremos las siguientes oraciones:
She won two silver medals She made a silver speech His worries had silvered his hair
En las oraciones anteriores, cómo tratamos la palabra plata- como un sustantivo, un adjetivo o un verbo.
Ambigüedad sintáctica
La ambigüedad sintáctica ocurre cuando una oración se analiza de diferentes maneras.
Por ejemplo, Tengamos una oración
Sentence: The man saw the girl with the microscope
Esta oración es ambigua como:
si el hombre vio a la niña con un microscopio o la vio a través de su microscopio.
Ambigüedad semántica
Este tipo de ambigüedades se produce cuando se puede malinterpretar el significado de las propias palabras. En palabras simples, la ambigüedad semántica ocurre cuando una oración contiene una palabra o frase ambigua.
Por ejemplo, Tengamos una oración
Sentence: The bus hit the pole while it was moving
La oración anterior tiene ambigüedad semántica porque esta oración puede tener dos interpretaciones
- «El autobús en movimiento golpeó el poste»
- “El autobús chocó contra el poste mientras el poste se movía”.
Ambigüedad anafórica
Anáfora significa cuando el mismo comienzo de una oración se repite varias veces y se produce una ambigüedad anafórica debido al uso de entidades anáforas en el discurso.
Por ejemplo, Tengamos un grupo de oraciones:
Sentence: The dog ran up the hill. It was very steep. It soon got tired.
Aquí, la referencia anafórica de «eso» en dos situaciones provoca ambigüedad.
Ambigüedad pragmática
Este tipo de ambigüedades ocurren cuando el contexto de una frase le da múltiples interpretaciones. En palabras simples, podemos decir que estas ambigüedades surgen cuando el enunciado no es específico.
Por ejemplo, Tengamos una oración
Sentence: I like you too
que puede tener múltiples interpretaciones como:
- Me gustas (como yo te gusto)
- Me gustas (como a los demás).
¡Esto termina nuestra Parte 1 de la serie de blogs sobre procesamiento del lenguaje natural!
Notas finales
¡Gracias por leer!
Si le gustó esto y quiere saber más, visite mis otros artículos sobre ciencia de datos y aprendizaje automático haciendo clic en el Enlace
No dude en ponerse en contacto conmigo en Linkedin, Correo electrónico.
¿Algo no mencionado o quieres compartir tus pensamientos? No dude en comentar a continuación y me pondré en contacto con usted.
Sobre el Autor
Chirag Goyal
Actualmente, estoy cursando mi Licenciatura en Tecnología (B.Tech) en Ciencias de la Computación e Ingeniería de la Instituto Indio de Tecnología de Jodhpur (IITJ). Estoy muy entusiasmado con el aprendizaje automático, el aprendizaje profundo y la inteligencia artificial.
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.