Objetivo
- Las partes del etiquetado de voz y el análisis de dependencias son técnicas ampliamente utilizadas en el procesamiento de texto.
- Comprender las partes de las etiquetas y las gramáticas del habla con sus respectivos casos de uso en el procesamiento del lenguaje natural.
Introducción
El procesamiento del lenguaje natural es una rama del aprendizaje automático que se ocupa de cómo las máquinas entienden los lenguajes humanos. Los datos de texto son un dominio de problemas ampliamente disponible para las tareas de PNL.
Para trabajar con datos de texto, es importante transformar el texto sin procesar en una forma que los algoritmos de aprendizaje automático puedan entender y utilizar, esto se denomina preprocesamiento de texto. Contamos con varias técnicas para el preprocesamiento de texto, como lematización, lematización, etiquetado POS y análisis de dependencias.
Nota: Si está más interesado en aprender conceptos en un formato audiovisual, tenemos este artículo completo explicado en el video a continuación. Si no es así, puede seguir leyendo.
En este artículo, vamos a discutir las propiedades relacionadas con la estructura de los datos de texto. Aquí, hablaremos sobre las partes del habla y las gramáticas de dependencia que nos llevarán a entender cómo funcionan.
Partes de etiquetas de voz
Las etiquetas de partes del habla son las propiedades de las palabras, que definen su contexto principal, funciones y uso en una oración. Algunas de las etiquetas de partes del discurso más utilizadas son
Sustantivos: Que define cualquier objeto o entidad
Verbos: Eso define alguna acción.
Adjetivos y adverbios: Actúa como modificador, cuantificador o intensificador en cualquier oración.
En una oración, cada palabra se asociará con una parte adecuada de la etiqueta de voz. Por ejemplo, considera la oración a continuación
En esta oración, cada palabra está asociada con una parte de la etiqueta de voz que define sus funciones. Aquí, David tiene una etiqueta NNP, lo que significa que es un nombre propio. Además, tiene y compró pertenecen al verbo que indica que son las acciones. La tienda Laptop y Apple son los sustantivos. Nuevo es el adjetivo cuya función es modificar el contexto del portátil.
Las etiquetas de las partes del habla se definen por la relación de las palabras con las otras palabras de la oración.
Podemos aplicar modelos de aprendizaje automático y modelos basados en reglas para obtener las etiquetas de las partes del habla de una palabra. El corpus de Penn Treebank proporciona las partes de las anotaciones de etiquetas de voz más utilizadas. En el cual, se definen un total de 48 etiquetas TPV según su uso.
Casos de uso de etiquetas POS
Las etiquetas de partes de voz tienen una gran cantidad de aplicaciones y se utilizan en una variedad de tareas, como
- Limpieza de texto
- Tareas de ingeniería de funciones
- Desambiguación del sentido de la palabra
Por ejemplo, considere estas oraciones
En ambas oraciones, se usa la palabra clave libro, pero en la oración uno, se usa como un verbo. Mientras que en la oración dos se usa como sustantivo.
Gramática de la circunscripción
Ahora hablemos de la gramática.
El primer tipo de gramática es la gramática constitutiva. Cualquier palabra / grupo de palabras / frase puede denominarse constituyente. El objetivo de la gramática constitutiva es organizar cualquier oración en sus constituyentes utilizando sus propiedades. Estas propiedades generalmente son impulsadas por las etiquetas de las partes del discurso, la identificación de sustantivos o frases verbales.
Por ejemplo, la gramática de la circunscripción puede definir que cualquier oración se puede organizar en tres constituyentes: un sujeto, un contexto o un objeto. Estos componentes pueden tomar diferentes valores y, en consecuencia, pueden generar diferentes oraciones.
Otra forma de ver la gramática constitutiva es definirlos en términos de sus partes del discurso. Las etiquetas dicen una estructura gramatical que contiene un . Esto corresponde a la misma frase, Los perros ladran en el parque.
Gramática de dependencia
También tenemos un tipo diferente de gramática, es decir, la gramática de dependencia, que establece que «Las palabras de una oración dependen de las otras palabras de la oración».
Por ejemplo, en la última oración, se mencionó un perro que ladra y el perro se modificó ladrando ya que el adjetivo-modificador de dependencia existe entre los dos.
La gramática de dependencia organiza las palabras de una oración según su dependencia. Una de las palabras de la oración actúa como raíz y todas las demás palabras están vinculadas directa o indirectamente a la raíz mediante sus dependencias. Estas dependencias representan la relación entre las palabras de una oración.
La gramática de dependencia se utiliza para comprender la estructura y las dependencias semánticas entre las palabras. Consideremos un ejemplo.
El árbol de dependencia de esta oración se parece a esto.
En este árbol, la palabra raíz es «comunidad», teniendo NN como parte de la etiqueta de voz y todas las demás palabras de este árbol están conectadas a la raíz directa o indirectamente con una relación de dependencia como objeto directo / sujeto directo, modificadores, etc.
Estas relaciones definen sus roles y funciones de cada palabra en la oración y cómo se conectan varias palabras entre sí. Aquí, cada dependencia se puede representar en forma de triplete que contiene una relación, un gobernador y un dependiente. Esto significa que un dependiente está conectado al gobernador por una relación. En otras palabras, son sujeto-verbo u objeto.
Como en el último ejemplo, DataPeaker es el sujeto o el gobernador, la comunidad de ciencia de datos más grande es el dependiente o el objeto.
Casos de uso de gramática de dependencia
La gramática de dependencia tiene múltiples casos de uso, por ejemplo
- En reconocimiento de entidad nombrada
- Sistema de respuesta a preguntas
- En resoluciones de co-referencia, donde la tarea es mapear los pronombres con las respectivas frases nominales.
- Problemas de resumen en el texto.
- Funciones para problemas de clasificación de texto
Notas finales
Para resumir, en este artículo vimos etiquetas de partes del habla y dos tipos de gramática, es decir, gramática de circunscripción y gramática de dependencia. También vimos algunos de los ejemplos y casos de uso importantes de ellos.
Si está buscando comenzar su viaje de ciencia de datos y desea todos los temas bajo un mismo techo, su búsqueda se detiene aquí. Eche un vistazo a la IA y ML BlackBelt certificadas de DataPeaker Más Programa
¡Si tienes alguna duda, házmelo saber en la sección de comentarios!
Relacionado
Posts Relacionados:
- Etiqueta de parte del discurso (POS) | Análisis de dependencia
- Módulo del sistema operativo Python | Los 30 métodos más útiles del módulo del sistema operativo Python
- Aplicaciones del procesamiento del lenguaje natural (NLP)
- Una descripción general simple del aprendizaje profundo del perceptrón multicapa (MLP)