Este artículo fue publicado como parte del Blogatón de ciencia de datos
Introducción
Este artículo es parte de una serie de blogs en curso sobre el procesamiento del lenguaje natural (PNL). En el artículo anterior, discutimos el análisis semántico, que es un nivel de tareas de PNL. En ese artículo, discutimos las técnicas de análisis semántico en las que discutimos una técnica llamada extracción de entidades, que es muy importante de entender en PNL.
Por lo tanto, en este artículo, profundizaremos en la técnica de extracción de entidades denominada Reconocimiento de entidades con nombre, que es un componente muy útil en la canalización de NLP.
Esta es la parte 10 de la serie de blogs sobre la Guía paso a paso para el procesamiento del lenguaje natural.
Tabla de contenido
1. ¿Qué es el reconocimiento de entidad con nombre (NER)?
2. Diferentes bloques presentes en un modelo NER típico
3. Comprensión profunda del reconocimiento de entidades nombradas con un ejemplo
4. ¿Cómo funciona el reconocimiento de entidades nombradas?
5. Casos de uso de reconocimiento de entidad nombrada
6. ¿Cómo puedo utilizar NER?
¿Qué es el reconocimiento de entidad con nombre (NER)?
Analicemos primero qué significan las entidades.
Las entidades son los fragmentos más importantes de una oración en particular, como frases nominales, frases verbales o ambas. Generalmente, los algoritmos de detección de entidades son modelos conjuntos de:
- Análisis basado en reglas, Python
- Búsquedas de diccionario,
- POS etiquetado,
- Análisis de dependencias.
Por ejemplo,
En la oración anterior, las entidades son:
Date: Thursday, Time: night, Location: Chateau Marmont, Person: Cate Blanchett
Ahora, podemos comenzar nuestra discusión sobre el reconocimiento de entidades nombradas (NER),
1. El reconocimiento de entidades nombradas es uno de los métodos clave de detección de entidades en la PNL.
2. El reconocimiento de entidades nombradas es una técnica de procesamiento de lenguaje natural que puede escanear automáticamente artículos completos y extraer algunas entidades fundamentales en un texto y clasificarlas en categorías predefinidas. Las entidades pueden ser,
- Organizaciones,
- Cantidades,
- Valores monetarios,
- Porcentajes y más.
- Nombres de personas
- Nombres de empresas
- Ubicaciones geográficas (tanto físicas como políticas)
- Nombres de productos
- Fechas y horas
- Cantidades de dinero
- Nombres de eventos
3. En palabras simples, el reconocimiento de entidades nombradas es el proceso de detectar las entidades nombradas, como nombres de personas, nombres de ubicaciones, nombres de empresas, etc. del texto.
4. También se conoce como identificación de entidad o extracción de entidad o fragmentación de entidad.
Por ejemplo,
5. Con la ayuda del reconocimiento de entidades nombradas, podemos extraer información clave para comprender el texto, o simplemente usarla para extraer información importante y almacenarla en una base de datosUna base de datos es un conjunto organizado de información que permite almacenar, gestionar y recuperar datos de manera eficiente. Utilizadas en diversas aplicaciones, desde sistemas empresariales hasta plataformas en línea, las bases de datos pueden ser relacionales o no relacionales. Su diseño adecuado es fundamental para optimizar el rendimiento y garantizar la integridad de la información, facilitando así la toma de decisiones informadas en diferentes contextos.....
6. La aplicabilidad de la detección de entidades se puede ver en muchas aplicaciones, como
- Chatbots automatizados,
- Analizadores de contenido,
- Perspectivas del consumidor, etc.
Tipos de entidad con nombre más utilizados:
Fuente de la imagen: imágenes de Google
Diferentes bloques presentes en un modelo típico de reconocimiento de entidad con nombre
Un modelo típico de NER consta de los siguientes tres bloques:
Identificación de frase sustantiva
Este paso trata de extraer todas las frases nominales de un texto con la ayuda del análisis de dependencia y el etiquetado de parte del habla.
Clasificación de frases
En este paso de clasificación, clasificamos todas las frases nominales extraídas del paso anterior en sus respectivas categorías. Para eliminar la ambigüedad de las ubicaciones, API de Google Maps puede proporcionar un muy buen camino. y para identificar nombres de personas o nombres de empresas, las bases de datos abiertas de DBpedia, Wikipedia puede ser usado. Aparte de esto, también podemos hacer las tablas de búsqueda y los diccionarios combinando información con la ayuda de diferentes fuentes.
Desambiguación de entidades
A veces, lo que sucede es que las entidades se clasifican incorrectamente, por lo que crear una capa de validación sobre los resultados se vuelve útil. El uso de gráficos de conocimiento se puede aprovechar para este propósito. Algunos de los gráficos de conocimiento más populares son:
Comprensión profunda de NER con un ejemplo
Considere la siguiente oración:
Las celdas azules representan los sustantivos. Algunos de estos sustantivos describen cosas reales presentes en el mundo.
Por ejemplo, De lo anterior, los siguientes sustantivos representan lugares físicos en un mapa.
“London”, “England”, “United Kingdom”
¡Sería genial si pudiéramos detectar eso! Con esa cantidad de información, podríamos extraer automáticamente una lista de lugares del mundo real mencionados en un documento con la ayuda de PNL.
Por lo tanto, el objetivo de NER es detectar y etiquetar estos sustantivos con los conceptos del mundo real que representan.
Entonces, cuando ejecutamos cada token presente en la oración a través de un modelo de etiquetado NER, nuestra oración se ve así,
Analicemos qué hace exactamente el sistema NER.
Los sistemas NER no solo hacen una simple búsqueda en el diccionario. En cambio, están usando el contexto de cómo aparece una palabra en la oración y usaron un modelo estadístico para adivinar qué tipo de sustantivo representa esa palabra en particular.
Dado que NER facilita la extracción de datos estructurados del texto, tiene muchos usos. Es uno de los métodos más fáciles de obtener rápidamente un valor revelador de una canalización de PNL.
Si desea probar NER usted mismo, consulte la Enlace.
¿Cómo funciona el reconocimiento de entidades nombradas?
Como podemos observar simplemente, después de leer un texto en particular, naturalmente podemos reconocer entidades nombradas como personas, valores, ubicaciones, etc.
Por ejemplo, Considere la siguiente oración:
Sentence: Sundar Pichai, the CEO of Google Inc. is walking in the streets of California.
De la oración anterior, podemos identificar tres tipos de entidades: (Entidades nombradas)
- («Persona»: «Sundar Pichai»),
- («Org»: «Google Inc.»),
- («Ubicación»: «California»).
Pero para hacer lo mismo con la ayuda de las computadoras, primero debemos ayudarlas a reconocer entidades para que puedan categorizarlas. Entonces, para hacerlo, podemos contar con la ayuda del aprendizaje automático y el procesamiento del lenguaje natural (NLP).
Analicemos el papel de ambas cosas al implementar NER usando computadoras:
- PNL: Eso estudia la estructura y las reglas del lenguaje y forma sistemas inteligentes que son capaces de derivar significado del texto y el habla.
- Aprendizaje automático: Ayuda a las máquinas a aprender y mejorar con el tiempo.
Para saber qué es una entidad, un modelo NER necesita poder detectar una palabra o cadena de palabras que forman una entidad (por ejemplo, California) y decidir a qué categoría de entidad pertenece.
Entonces, como paso final, podemos decir que el corazón de cualquier modelo NER es un proceso de dos pasos:
- Detectar una entidad nombrada
- Categorizar la entidad
Entonces, primero, necesitamos crear categorías de entidades, como Nombre, Ubicación, Evento, Organización, etc., y alimentar un modelo NER con datos de entrenamientoEl entrenamiento es un proceso sistemático diseñado para mejorar habilidades, conocimientos o capacidades físicas. Se aplica en diversas áreas, como el deporte, la educación y el desarrollo profesional. Un programa de entrenamiento efectivo incluye la planificación de objetivos, la práctica regular y la evaluación del progreso. La adaptación a las necesidades individuales y la motivación son factores clave para lograr resultados exitosos y sostenibles en cualquier disciplina.... relevantes.
Luego, al etiquetar algunas muestras de palabras y frases con sus entidades correspondientes, eventualmente enseñaremos nuestro modelo NER a detectar las entidades y categorizarlas.
Casos de uso de reconocimiento de entidad nombrada
Como hemos comentado en la sección anterior, el reconocimiento de entidad nombrada (NER) nos ayudará a identificar fácilmente los componentes clave en un texto, como nombres de personas, lugares, marcas, valores monetarios y más.
Y extraer las principales entidades de un texto nos ayuda a ordenar los datos no estructurados y detectar la información importante, lo cual es crucial si tiene que lidiar con grandes conjuntos de datos.
Entonces, analicemos algunos de los casos de uso interesantes del Reconocimiento de entidades nombradas:
Atención al cliente
Fuente de la imagen: imágenes de Google
Analicemos el caso de uso de los tickets de soporte al cliente donde tratamos con un número creciente de tickets, allí podemos usar técnicas de reconocimiento de entidades nombradas para manejar las solicitudes de los clientes más rápido.
Desde una perspectiva empresarial, si automatizamos las tareas repetitivas de servicio al cliente, como categorizar los problemas y consultas de los clientes, le ahorrará un tiempo valioso. Como resultado, ayuda a mejorar sus tasas de resoluciónLa "resolución" se refiere a la capacidad de tomar decisiones firmes y cumplir con los objetivos establecidos. En contextos personales y profesionales, implica definir metas claras y desarrollar un plan de acción para alcanzarlas. La resolución es fundamental para el crecimiento personal y el éxito en diversas áreas de la vida, ya que permite superar obstáculos y mantener el enfoque en lo que realmente importa.... y aumenta la satisfacción del cliente.
Aquí, también podemos usar la extracción de entidades para extraer la información relevante, como nombres de productos o números de serie, lo que facilita el envío de tickets al agente o equipo más adecuado para manejar ese problema.
Obtenga información a partir de los comentarios de los clientes
Fuente de la imagen: imágenes de Google
Para casi todas las empresas basadas en productos, las revisiones en línea son una excelente fuente de comentarios de los clientes, ya que pueden proporcionar información valiosa sobre lo que les gusta y no les gusta a los clientes de sus productos y los aspectos de su negocio que necesitan mejoras para el incremento del negocio.
Entonces, aquí podemos usar los sistemas NER para organizar todos los comentarios de los clientes y detectar problemas recurrentes.
Por ejemplo, Podemos utilizar el sistema NER para detectar ubicaciones que se mencionan con mayor frecuencia en los comentarios negativos de los clientes, lo que podría llevarlo a concentrarse en una sucursal de oficina en particular.
Sistema de recomendación
Fuente de la imagen: imágenes de Google
Muchas aplicaciones modernas como Netflix, YouTube, Facebook, etc. se basan en sistemas de recomendación para producir experiencias óptimas para los clientes. Muchos de estos sistemas se basan en el reconocimiento de entidades con nombre, que pueden brindar sugerencias basadas en el historial de búsqueda del usuario.
Por ejemplo, Si miras muchos videos educativos en YouTube, obtendrás más recomendaciones que se han clasificado como educación de entidad.
Resumiendo currículums
Fuente de la imagen: imágenes de Google
Al reclutar nuevas personas, los reclutadores pasan muchas horas de su día revisando currículos y buscando al candidato adecuado. Cada currículum contiene casi el mismo tipo de información, pero su forma organizada y su formato son diferentes, por lo que se convierte en un ejemplo clásico de datos no estructurados.
Entonces, aquí con la ayuda de un extractor de entidades, los equipos de reclutamiento pueden extraer instantáneamente la información más relevante sobre los candidatos, desde información personal como nombre, dirección, número de teléfono, fecha de nacimiento y correo electrónico, etc., hasta información relacionada con su formación y experiencia como certificaciones, títulos, nombres de empresas, habilidades, etc.
Algunos casos de uso más de NER son:
- Optimización de los algoritmos de los motores de búsqueda,
- Clasificación de contenido para canales de noticias, etc.
¿Cómo puedo utilizar NER?
Si trabaja en una declaración de problema empresarial y cree que su empresa podría beneficiarse de NER, puede utilizarla con bastante facilidad con la ayuda de las siguientes excelentes bibliotecas de código abierto:
Cada uno tiene sus pros y sus contras, que puede explorar consultando los enlaces mencionados anteriormente.
¡Esto termina nuestra Parte 10 de la serie de blogs sobre procesamiento del lenguaje natural!
Otras publicaciones de blog mías
También puede consultar mis publicaciones de blog anteriores.
Publicaciones anteriores del blog de ciencia de datos.
Aquí está mi perfil de Linkedin en caso de que quieras conectarte conmigo. Estaré feliz de estar conectado contigo.
Correo electrónico
Para cualquier consulta, puede enviarme un correo electrónico al Gmail.
Notas finales
¡Gracias por leer!
Espero que les haya gustado el artículo. Si te gusta, compártelo con tus amigos también. ¿Algo no mencionado o quieres compartir tus pensamientos? No dude en comentar a continuación y me pondré en contacto con usted. 😉
Relacionado
Posts Relacionados:
- Ruta de aprendizaje de PNL | Ruta de aprendizaje para dominar la PNL en 2020
- Reconocimiento de entidad con nombre (NER) en Python con Spacy
- Análisis semántico | Guía para dominar el procesamiento del lenguaje natural (parte 9)
- Análisis sintáctico | Guía para dominar el procesamiento del lenguaje natural (Parte 11)