Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati
introduzione
Questo articolo fa parte di una serie di blog in corso sull'elaborazione del linguaggio naturale (PNL). Nell'articolo precedente, discutimos el análisis semántico, que es un nivel de tareas de PNL. En ese artículo, discutimos las técnicas de análisis semántico en las que discutimos una técnica llamada extracción de entidades, que es muy importante de entender en PNL.
Perciò, in questo articolo, profundizaremos en la técnica de extracción de entidades denominada Reconocimiento de entidades con nombre, que es un componente muy útil en la canalización de NLP.
Questa è la parte 10 dalla serie di blog sulla Guida passo passo all'elaborazione del linguaggio naturale.
Sommario
1. ¿Qué es el reconocimiento de entidad con nombre (FUORI USO)?
2. Diferentes bloques presentes en un modelo NER típico
3. Comprensión profunda del reconocimiento de entidades nombradas con un ejemplo
4. ¿Cómo funciona el reconocimiento de entidades nombradas?
5. Casos de uso de reconocimiento de entidad nombrada
6. ¿Cómo puedo utilizar NER?
¿Qué es el reconocimiento de entidad con nombre (FUORI USO)?
Analicemos primero qué significan las entidades.
Las entidades son los fragmentos más importantes de una oración en particular, como frases nominales, frases verbales o ambas. In genere, los algoritmos de detección de entidades son modelos conjuntos de:
- Análisis basado en reglas, Pitone
- Búsquedas de diccionario,
- POS etiquetado,
- Análisis de dependencias.
Ad esempio,
Nella frase precedente, las entidades son:
Data: Thursday, Ore: night, Location: Chateau Marmont, Person: Cate Blanchett
Ora, podemos comenzar nuestra discusión sobre el reconocimiento de entidades nombradas (FUORI USO),
1. El reconocimiento de entidades nombradas es uno de los métodos clave de detección de entidades en la PNL.
2. El reconocimiento de entidades nombradas es una técnica de procesamiento de lenguaje natural que puede escanear automáticamente artículos completos y extraer algunas entidades fundamentales en un texto y clasificarlas en categorías predefinidas. Las entidades pueden ser,
- Organizzazioni,
- Cantidades,
- Valores monetarios,
- Porcentajes y más.
- Nombres de personas
- Nombres de empresas
- Ubicaciones geográficas (tanto físicas como políticas)
- Nombres de productos
- Fechas y horas
- Cantidades de dinero
- Nombres de eventos
3. In parole semplici, el reconocimiento de entidades nombradas es el proceso de detectar las entidades nombradas, come nomi di persone, nombres de ubicaciones, nombres de empresas, eccetera. del testo.
4. También se conoce como identificación de entidad o extracción de entidad o fragmentación de entidad.
Ad esempio,
5. Con la ayuda del reconocimiento de entidades nombradas, podemos extraer información clave para comprender el texto, o simplemente usarla para extraer información importante y almacenarla en una Banca datiUn database è un insieme organizzato di informazioni che consente di archiviare, Gestisci e recupera i dati in modo efficiente. Utilizzato in varie applicazioni, Dai sistemi aziendali alle piattaforme online, I database possono essere relazionali o non relazionali. Una progettazione corretta è fondamentale per ottimizzare le prestazioni e garantire l'integrità delle informazioni, facilitando così il processo decisionale informato in diversi contesti.....
6. La aplicabilidad de la detección de entidades se puede ver en muchas aplicaciones, Che cosa
- Chatbots automatizados,
- Analizadores de contenido,
- Perspectivas del consumidor, eccetera.
Tipos de entidad con nombre más utilizados:
Fonte immagine: Google Immagini
Diferentes bloques presentes en un modelo típico de reconocimiento de entidad con nombre
Un modelo típico de NER consta de los siguientes tres bloques:
Identificación de frase sustantiva
Este paso trata de extraer todas las frases nominales de un texto con la ayuda del análisis de dependencia y el etiquetado de parte del habla.
Clasificación de frases
En este paso de clasificación, clasificamos todas las frases nominales extraídas del paso anterior en sus respectivas categorías. Para eliminar la ambigüedad de las ubicaciones, API de Google Maps puede proporcionar un muy buen camino. y para identificar nombres de personas o nombres de empresas, las bases de datos abiertas de DBpedia, Wikipedia puede ser usado. A parte questo, también podemos hacer las tablas de búsqueda y los diccionarios combinando información con la ayuda de diferentes fuentes.
Desambiguación de entidades
Qualche volta, lo que sucede es que las entidades se clasifican incorrectamente, por lo que crear una capa de validación sobre los resultados se vuelve útil. El uso de gráficos de conocimiento se puede aprovechar para este propósito. Algunos de los gráficos de conocimiento más populares son:
Comprensión profunda de NER con un ejemplo
Considera la seguente frase:
Las celdas azules representan los sustantivos. Algunos de estos sustantivos describen cosas reales presentes en el mundo.
Ad esempio, De lo anterior, los siguientes sustantivos representan lugares físicos en un mapa.
“London”, “England”, “United Kingdom”
¡Sería genial si pudiéramos detectar eso! Con esa cantidad de información, podríamos extraer automáticamente una lista de lugares del mundo real mencionados en un documento con la ayuda de PNL.
Perciò, el objetivo de NER es detectar y etiquetar estos sustantivos con los conceptos del mundo real que representan.
Quindi, cuando ejecutamos cada token presente en la oración a través de un modelo de etiquetado NER, nuestra oración se ve así,
Analicemos qué hace exactamente el sistema NER.
Los sistemas NER no solo hacen una simple búsqueda en el diccionario. Anziché, están usando el contexto de cómo aparece una palabra en la oración y usaron un modelo estadístico para adivinar qué tipo de sustantivo representa esa palabra en particular.
Dado que NER facilita la extracción de datos estructurados del texto, tiene muchos usos. Es uno de los métodos más fáciles de obtener rápidamente un valor revelador de una canalización de PNL.
Si desea probar NER usted mismo, vedere il Collegamento.
¿Cómo funciona el reconocimiento de entidades nombradas?
Como podemos observar simplemente, después de leer un texto en particular, naturalmente podemos reconocer entidades nombradas como personas, valori, posizioni, eccetera.
Ad esempio, Considera la seguente frase:
Frase: Sundar Pichai, the CEO of Google Inc. is walking in the streets of California.
De la oración anterior, podemos identificar tres tipos de entidades: (Entidades nombradas)
- (“Persona”: “Sundar Pichai”),
- (“Org”: “Google Inc.”),
- (“Ubicazione”: “California”).
Pero para hacer lo mismo con la ayuda de las computadoras, primero debemos ayudarlas a reconocer entidades para que puedan categorizarlas. Quindi, per farlo, podemos contar con la ayuda del aprendizaje automático y el procesamiento del lenguaje natural (PNL).
Analicemos el papel de ambas cosas al implementar NER usando computadoras:
- PNL: Quella estudia la estructura y las reglas del lenguaje y forma sistemas inteligentes que son capaces de derivar significado del texto y el habla.
- Apprendimento automatico: Ayuda a las máquinas a aprender y mejorar con el tiempo.
Para saber qué es una entidad, un modelo NER necesita poder detectar una palabra o cadena de palabras que forman una entidad (ad esempio, California) y decidir a qué categoría de entidad pertenece.
Quindi, como paso final, podemos decir que el corazón de cualquier modelo NER es un proceso de dos pasos:
- Detectar una entidad nombrada
- Categorizar la entidad
Quindi, primo, necesitamos crear categorías de entidades, como Nombre, Ubicazione, Evento, Organizzazione, eccetera., y alimentar un modelo NER con datos de addestramentoLa formazione è un processo sistematico volto a migliorare le competenze, conoscenze o abilità fisiche. Viene applicato in vari ambiti, come lo sport, Formazione e sviluppo professionale. Un programma di allenamento efficace include la pianificazione degli obiettivi, Pratica regolare e valutazione dei progressi. L'adattamento alle esigenze individuali e la motivazione sono fattori chiave per ottenere risultati di successo e sostenibili in qualsiasi disciplina.... relevantes.
Dopo, al etiquetar algunas muestras de palabras y frases con sus entidades correspondientes, eventualmente enseñaremos nuestro modelo NER a detectar las entidades y categorizarlas.
Casos de uso de reconocimiento de entidad nombrada
Como hemos comentado en la sección anterior, el reconocimiento de entidad nombrada (FUORI USO) nos ayudará a identificar fácilmente los componentes clave en un texto, come nomi di persone, posti, marchi di fabbrica, valores monetarios y más.
Y extraer las principales entidades de un texto nos ayuda a ordenar los datos no estructurados y detectar la información importante, lo cual es crucial si tiene que lidiar con grandes conjuntos de datos.
Quindi, analicemos algunos de los casos de uso interesantes del Reconocimiento de entidades nombradas:
Atención al cliente
Fonte immagine: Google Immagini
Analicemos el caso de uso de los tickets de soporte al cliente donde tratamos con un número creciente de tickets, allí podemos usar técnicas de reconocimiento de entidades nombradas para manejar las solicitudes de los clientes más rápido.
Dal punto di vista commerciale, si automatizamos las tareas repetitivas de servicio al cliente, como categorizar los problemas y consultas de los clientes, le ahorrará un tiempo valioso. Di conseguenza, ayuda a mejorar sus tasas de risoluzioneIl "risoluzione" si riferisce alla capacità di prendere decisioni ferme e raggiungere gli obiettivi prefissati. In contesti personali e professionali, Implica la definizione di obiettivi chiari e lo sviluppo di un piano d'azione per raggiungerli. La risoluzione è fondamentale per la crescita personale e il successo in vari ambiti della vita, In quanto ti permette di superare gli ostacoli e mantenere la concentrazione su ciò che conta davvero.... y aumenta la satisfacción del cliente.
Qui, también podemos usar la extracción de entidades para extraer la información relevante, como nombres de productos o números de serie, lo que facilita el envío de tickets al agente o equipo más adecuado para manejar ese problema.
Obtenga información a partir de los comentarios de los clientes
Fonte immagine: Google Immagini
Para casi todas las empresas basadas en productos, las revisiones en línea son una excelente fuente de comentarios de los clientes, ya que pueden proporcionar información valiosa sobre lo que les gusta y no les gusta a los clientes de sus productos y los aspectos de su negocio que necesitan mejoras para el incremento del negocio.
Quindi, aquí podemos usar los sistemas NER para organizar todos los comentarios de los clientes y detectar problemas recurrentes.
Ad esempio, Podemos utilizar el sistema NER para detectar ubicaciones que se mencionan con mayor frecuencia en los comentarios negativos de los clientes, lo que podría llevarlo a concentrarse en una sucursal de oficina en particular.
Sistema di raccomandazione
Fonte immagine: Google Immagini
Muchas aplicaciones modernas como Netflix, Youtube, Facebook, eccetera. se basan en sistemas de recomendación para producir experiencias óptimas para los clientes. Muchos de estos sistemas se basan en el reconocimiento de entidades con nombre, que pueden brindar sugerencias basadas en el historial de búsqueda del usuario.
Ad esempio, Si miras muchos videos educativos en YouTube, obtendrás más recomendaciones que se han clasificado como educación de entidad.
Resumiendo currículums
Fonte immagine: Google Immagini
Al reclutar nuevas personas, los reclutadores pasan muchas horas de su día revisando currículos y buscando al candidato adecuado. Cada currículum contiene casi el mismo tipo de información, pero su forma organizada y su formato son diferentes, por lo que se convierte en un ejemplo clásico de datos no estructurados.
Quindi, aquí con la ayuda de un extractor de entidades, los equipos de reclutamiento pueden extraer instantáneamente la información más relevante sobre los candidatos, desde información personal como nombre, indirizzo, número de teléfono, fecha de nacimiento y correo electrónico, eccetera., hasta información relacionada con su formación y experiencia como certificaciones, Titoli, nombres de empresas, capacità, eccetera.
Algunos casos de uso más de NER son:
- Optimización de los algoritmos de los motores de búsqueda,
- Clasificación de contenido para canales de noticias, eccetera.
¿Cómo puedo utilizar NER?
Si trabaja en una declaración de problema empresarial y cree que su empresa podría beneficiarse de NER, puede utilizarla con bastante facilidad con la ayuda de las siguientes excelentes bibliotecas de código abierto:
Ognuno ha i suoi pro e contro, que puede explorar consultando los enlaces mencionados anteriormente.
Questo finisce la nostra parte 10 dalla serie di blog sull'elaborazione del linguaggio naturale!
Altri miei post sul blog
Puoi anche dare un'occhiata ai miei precedenti post sul blog.
Post precedenti del blog sulla scienza dei dati.
Ecco qui il mio profilo Linkedin nel caso tu voglia connetterti con me. Sarò felice di essere connesso con te.
Per qualsiasi domanda, puoi scrivermi a Gmail.
Note finali
Grazie per aver letto!
Spero che l'articolo ti sia piaciuto. Se ti piace, condividilo anche con i tuoi amici. Tutto ciò che non è stato menzionato o vuoi condividere i tuoi pensieri? Sentiti libero di commentare qui sotto e ti ricontatterò. ?
Imparentato
Articoli correlati:
- Percorso di apprendimento della PNL | Percorso di apprendimento per padroneggiare la PNL in 2020
- Riconoscimento entità nominative (FUORI USO) in Python con Spacy
- Analisi semantica | Guida alla padronanza dell'elaborazione del linguaggio naturale (parte 9)
- Analisi sintattica | Guida alla padronanza dell'elaborazione del linguaggio naturale (Parte 11)