Este artigo foi publicado como parte do Data Science Blogathon
Introdução
Este artigo é parte de uma série de blog em andamento sobre processamento de linguagem natural (PNL). No artigo anterior, nós discutimos análise semântica, o que é um nível de tarefa de PNL. Naquele artigo, discutimos técnicas de análise semântica em que discutimos uma técnica chamada extração de entidade, isso é muito importante entender em PNL.
Portanto, neste artigo, Vamos nos aprofundar na técnica de extração de entidade chamada Named Entity Recognition, que é um componente muito útil no pipeline de PNL.
Esta é a parte 10 da série de blogs no Guia passo a passo para processamento de linguagem natural.
Tabela de conteúdo
1. O que é reconhecimento de entidade nomeada (BAIXA)?
2. Diferentes blocos presentes em um modelo NER típico
3. Compreensão profunda do reconhecimento de entidade nomeada com um exemplo
4. Como funciona o reconhecimento de entidade nomeada?
5. Casos de uso de reconhecimento de entidade nomeada
6. Como posso usar o NER?
O que é reconhecimento de entidade nomeada (BAIXA)?
Vamos primeiro analisar o que as entidades significam.
Entidades são os fragmentos mais importantes de uma frase particular, como frases nominais, frases verbais ou ambos. Geralmente, algoritmos de detecção de entidade são modelos conjuntos de:
- Análise baseada em regras, Pitão
- Buscas de dicionário,
- POS etiquetado,
- Análise de dependência.
Por exemplo,
Na frase anterior, as entidades são:
Encontro: quinta-feira, Tempo: noite, Localização: Chateau Marmont, Pessoa: Cate Blanchett
Agora, podemos começar nossa discussão sobre o reconhecimento de entidades nomeadas (BAIXA),
1. O reconhecimento de entidade nomeada é um dos principais métodos de detecção de entidade em PNL.
2. O reconhecimento de entidade nomeada é uma técnica de processamento de linguagem natural que pode digitalizar automaticamente artigos inteiros e extrair algumas entidades fundamentais em um texto e classificá-las em categorias predefinidas. Entidades podem ser,
- Organizações,
- Quantidades,
- Valores monetários,
- Porcentagens e mais.
- Nomes de pessoas
- Nomes de empresas
- Localizações geográficas (tanto físicas como políticas)
- Nomes de produtos
- Datas e horas
- Quantias de dinheiro
- Nomes de eventos
3. Em palavras simples, reconhecimento de entidade nomeada é o processo de detecção de entidades nomeadas, como nomes de pessoas, nomes de locais, nomes de empresas, etc. do texto.
4. Também conhecido como identificação de entidade ou extração de entidade ou fragmentação de entidade.
Por exemplo,
5. Com a ajuda do reconhecimento de entidade nomeada, podemos extrair informações importantes para entender o texto, o simplemente usarla para extraer información importante y almacenarla en una base de dadosUm banco de dados é um conjunto organizado de informações que permite armazenar, Gerencie e recupere dados com eficiência. Usado em várias aplicações, De sistemas corporativos a plataformas online, Os bancos de dados podem ser relacionais ou não relacionais. O design adequado é fundamental para otimizar o desempenho e garantir a integridade das informações, facilitando assim a tomada de decisão informada em diferentes contextos.....
6. A aplicabilidade da detecção de entidade pode ser vista em muitos aplicativos, O que
- Chatbots automatizados,
- Analisadores de conteúdo,
- Insights do consumidor, etc.
Tipos de entidade nomeados comumente usados:
Fonte da imagem: Imagens do google
Diferentes blocos presentes em um modelo típico de reconhecimento de entidade nomeada
Um modelo NER típico consiste nos três blocos a seguir:
Identificação de frase substantiva
Esta etapa tenta extrair todos os sintagmas nominais de um texto com a ajuda da análise de dependência e marcação de classes gramaticais.
Classificação de frase
Nesta etapa de classificação, classificamos todas as frases nominais extraídas da etapa anterior em suas respectivas categorias. Para eliminar a ambigüidade de locais, API de Google Maps pode fornecer um caminho muito bom. e para identificar nomes de pessoas ou nomes de empresas, os bancos de dados abertos de DBpedia, Wikipedia pode ser usado. Alem disso, também podemos fazer tabelas de pesquisa e dicionários combinando informações com a ajuda de diferentes fontes.
Desambiguação de entidade
As vezes, o que acontece é que as entidades são classificadas incorretamente, então, criar uma camada de validação sobre os resultados torna-se útil. O uso de gráficos de conhecimento pode ser aproveitado para esse fim. Alguns dos gráficos de conhecimento mais populares são:
Compreensão profunda do NER com um exemplo
Considere a seguinte frase:
As células azuis representam os substantivos. Alguns desses substantivos descrevem coisas reais presentes no mundo.
Por exemplo, De cima, os seguintes substantivos representam lugares físicos em um mapa.
"Londres", "Inglaterra", "Reino Unido"
Seria ótimo se pudéssemos detectar que! Com aquela quantidade de informação, poderíamos extrair automaticamente uma lista de lugares do mundo real mencionados em um documento com a ajuda da PNL.
Portanto, o objetivo do NER é detectar e rotular esses substantivos com os conceitos do mundo real que eles representam.
Então, quando executamos cada token presente na frase por meio de um modelo de marcação NER, nossa oração se parece com esta,
Vamos analisar o que exatamente o sistema NER faz.
Os sistemas NER não fazem apenas uma pesquisa simples no dicionário. Em vez de, eles estão usando o contexto de como uma palavra aparece na frase e um modelo estatístico para adivinhar que tipo de substantivo aquela palavra em particular representa.
Como o NER facilita a extração de dados estruturados de texto, tem muitos usos. É um dos métodos mais fáceis de obter rapidamente valor perspicaz de um pipeline de PNL..
Se você quiser experimentar o NER, Veja o Ligação.
Como funciona o reconhecimento de entidade nomeada?
Como podemos simplesmente observar, depois de ler um determinado texto, podemos naturalmente reconhecer entidades nomeadas como pessoas, valores, Localizações, etc.
Por exemplo, Considere a seguinte frase:
Frase: Sundar Pichai, o CEO da Google Inc. está andando nas ruas da Califórnia.
Da frase anterior, podemos identificar três tipos de entidades: (Entidades nomeadas)
- (“Pessoa”: “Sundar Pichai”),
- (“Org”: “Google Inc.”),
- (“Localização”: “Califórnia”).
Mas fazer o mesmo com a ajuda de computadores, devemos primeiro ajudá-los a reconhecer entidades para que possam categorizá-las. Então, para faze-lo, podemos contar com a ajuda do aprendizado de máquina e do processamento de linguagem natural (PNL).
Vamos discutir o papel de ambos ao implementar NER usando computadores:
- PNL: Isso estuda a estrutura e as regras da linguagem e cria sistemas inteligentes que são capazes de extrair significado do texto e da fala.
- Aprendizado de máquina: Ajude as máquinas a aprender e melhorar ao longo do tempo.
Para saber o que é uma entidade, um modelo NER precisa ser capaz de detectar uma palavra ou sequência de palavras que compõem uma entidade (por exemplo, Califórnia) e decidir a que categoria de entidade pertence.
Então, como uma etapa final, podemos dizer que o coração de qualquer modelo NER é um processo de duas etapas:
- Detectar uma entidade nomeada
- Categorizar a entidade
Então, primeiro, precisamos criar categorias de entidades, Como nome, Localização, Evento, Organização, etc., y alimentar un modelo NER con datos de TreinamentoO treinamento é um processo sistemático projetado para melhorar as habilidades, Conhecimento ou habilidades físicas. É aplicado em várias áreas, como esporte, Educação e desenvolvimento profissional. Um programa de treinamento eficaz inclui planejamento de metas, prática regular e avaliação do progresso. A adaptação às necessidades individuais e a motivação são fatores-chave para alcançar resultados bem-sucedidos e sustentáveis em qualquer disciplina.... relevantes.
Mais tarde, marcando alguns exemplos de palavras e frases com suas entidades correspondentes, eventualmente, ensinaremos nosso modelo NER a detectar entidades e categorizá-las.
Casos de uso de reconhecimento de entidade nomeada
Como comentamos na seção anterior, o reconhecimento da entidade nomeada (BAIXA) isso nos ajudará a identificar facilmente os principais componentes em um texto, como nomes de pessoas, locais, marcas registradas, valores monetários e mais.
E extrair as entidades principais de um texto nos ajuda a classificar dados não estruturados e detectar informações importantes, o que é crucial se você tiver que lidar com grandes conjuntos de dados.
Então, Vamos dar uma olhada em alguns dos casos de uso interessantes de reconhecimento de entidade nomeada:
Suporte ao cliente
Fonte da imagem: Imagens do google
Vamos analisar o caso de uso de tíquete de suporte ao cliente em que lidamos com um número crescente de tíquetes, lá, podemos usar técnicas de reconhecimento de entidade nomeada para lidar com as solicitações do cliente com mais rapidez.
De uma perspectiva de negócios, se automatizarmos tarefas repetitivas de atendimento ao cliente, como categorizar os problemas e dúvidas dos clientes, vai economizar um tempo valioso para você. Como resultado, ayuda a mejorar sus tasas de resoluçãoo "resolução" refere-se à capacidade de tomar decisões firmes e atingir metas estabelecidas. Em contextos pessoais e profissionais, Envolve a definição de metas claras e o desenvolvimento de um plano de ação para alcançá-las. A resolução é fundamental para o crescimento pessoal e o sucesso em várias áreas da vida, pois permite superar obstáculos e manter o foco no que realmente importa.... y aumenta la satisfacción del cliente.
Aqui, também podemos usar a extração de entidade para extrair as informações relevantes, como nomes de produtos ou números de série, facilitando o envio de tickets para o agente ou equipe mais adequada para lidar com esse problema.
Obtenha uma visão do feedback do cliente
Fonte da imagem: Imagens do google
Para quase todas as empresas baseadas em produtos, análises online são uma ótima fonte de feedback do cliente, pois podem fornecer informações valiosas sobre o que os clientes gostam e não gostam em seus produtos e os aspectos de sua empresa que precisam de melhorias para o crescimento da empresa.
Então, aqui podemos usar os sistemas NER para organizar todo o feedback do cliente e detectar problemas recorrentes.
Por exemplo, Podemos usar o sistema NER para detectar locais que são mencionados com mais frequência em avaliações negativas de clientes, o que pode levar você a se concentrar em uma filial específica.
Sistema de recomendação
Fonte da imagem: Imagens do google
Muitos aplicativos modernos como o Netflix, Youtube, Facebook, etc. dependem de sistemas de recomendação para produzir experiências ideais para o cliente. Muitos desses sistemas são baseados no reconhecimento de entidades nomeadas, que pode fornecer sugestões com base no histórico de pesquisa do usuário.
Por exemplo, Se você assistir a muitos vídeos educacionais no YouTube, você receberá mais recomendações que foram classificadas como entidades educacionais.
Resumindo currículos
Fonte da imagem: Imagens do google
Ao recrutar novas pessoas, os recrutadores passam muitas horas do dia revisando currículos e procurando o candidato certo. Cada currículo contém quase o mesmo tipo de informação, mas sua forma organizada e seu formato são diferentes, então se torna um exemplo clássico de dados não estruturados.
Então, aqui com a ajuda de um extrator de entidade, as equipes de recrutamento podem extrair instantaneamente as informações mais relevantes sobre os candidatos, de informações pessoais como nome, Morada, número de telefone, data de nascimento e email, etc., a informações relacionadas ao seu treinamento e experiência, como certificações, Títulos, nomes de empresas, habilidades, etc.
Mais alguns casos de uso de NER são:
- Otimização de algoritmo de mecanismo de pesquisa,
- Classificação de conteúdo para canais de notícias, etc.
Como posso usar o NER?
Se você está trabalhando em uma declaração de problema de negócios e acha que sua empresa poderia se beneficiar do NER, você pode usá-lo facilmente com a ajuda das seguintes excelentes bibliotecas de código aberto:
Cada um tem seus prós e contras, que você pode explorar consultando os links mencionados acima.
Isso encerra nossa parte 10 da série de blogs sobre processamento de linguagem natural!
Outros posts meus
Você também pode verificar minhas postagens anteriores.
Postagens anteriores do blog de ciência de dados.
Aqui está meu perfil do Linkedin no caso de você querer se conectar comigo. Ficarei feliz em estar conectado com você.
Correio eletrônico
Para qualquer consulta, você pode me enviar um e-mail em Gmail.
Notas finais
Obrigado pela leitura!
Espero que tenha gostado do artigo. Se você gosta, compartilhe com seus amigos também. Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você. 😉
Relacionado
Postagens Relacionadas:
- Caminho de aprendizagem do PNL | Aprendendo caminho para dominar nlp em 2020
- Reconhecimento de entidade nomeada (BAIXA) em Python com Spacy
- Análise semântica | Guia para Dominar o Processamento de Linguagem Natural (papel 9)
- Análise sintática | Guia para Dominar o Processamento de Linguagem Natural (Papel 11)