Reconhecimento de entidade nomeada | Guia para dominar a PNL (Papel 10)

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Introdução

Este artigo é parte de uma série de blog em andamento sobre processamento de linguagem natural (PNL). No artigo anterior, nós discutimos análise semântica, o que é um nível de tarefa de PNL. Naquele artigo, discutimos técnicas de análise semântica em que discutimos uma técnica chamada extração de entidade, isso é muito importante entender em PNL.

Portanto, neste artigo, Vamos nos aprofundar na técnica de extração de entidade chamada Named Entity Recognition, que é um componente muito útil no pipeline de PNL.

Esta é a parte 10 da série de blogs no Guia passo a passo para processamento de linguagem natural.

Tabela de conteúdo

1. O que é reconhecimento de entidade nomeada (BAIXA)?

2. Diferentes blocos presentes em um modelo NER típico

3. Compreensão profunda do reconhecimento de entidade nomeada com um exemplo

4. Como funciona o reconhecimento de entidade nomeada?

5. Casos de uso de reconhecimento de entidade nomeada

6. Como posso usar o NER?

O que é reconhecimento de entidade nomeada (BAIXA)?

Vamos primeiro analisar o que as entidades significam.

Entidades são os fragmentos mais importantes de uma frase particular, como frases nominais, frases verbais ou ambos. Geralmente, algoritmos de detecção de entidade são modelos conjuntos de:

  • Análise baseada em regras, Pitão
  • Buscas de dicionário,
  • POS etiquetado,
  • Análise de dependência.

Por exemplo,

O que é reconhecimento de entidade nomeada?

Na frase anterior, as entidades são:

Encontro: quinta-feira, Tempo: noite, Localização: Chateau Marmont, Pessoa: Cate Blanchett

Agora, podemos começar nossa discussão sobre o reconhecimento de entidades nomeadas (BAIXA),

1. O reconhecimento de entidade nomeada é um dos principais métodos de detecção de entidade em PNL.

2. O reconhecimento de entidade nomeada é uma técnica de processamento de linguagem natural que pode digitalizar automaticamente artigos inteiros e extrair algumas entidades fundamentais em um texto e classificá-las em categorias predefinidas. Entidades podem ser,

  • Organizações,
  • Quantidades,
  • Valores monetários,
  • Porcentagens e mais.
  • Nomes de pessoas
  • Nomes de empresas
  • Localizações geográficas (tanto físicas como políticas)
  • Nomes de produtos
  • Datas e horas
  • Quantias de dinheiro
  • Nomes de eventos

3. Em palavras simples, reconhecimento de entidade nomeada é o processo de detecção de entidades nomeadas, como nomes de pessoas, nomes de locais, nomes de empresas, etc. do texto.

4. Também conhecido como identificação de entidade ou extração de entidade ou fragmentação de entidade.

Por exemplo,

Reconhecimento de entidade nomeada 2

5. Com a ajuda do reconhecimento de entidade nomeada, podemos extrair informações importantes para entender o texto, ou apenas usá-lo para extrair informações importantes e armazená-las em um banco de dados.

6. A aplicabilidade da detecção de entidade pode ser vista em muitos aplicativos, O que

  • Chatbots automatizados,
  • Analisadores de conteúdo,
  • Insights do consumidor, etc.

Tipos de entidade nomeados comumente usados:

Tipos de entidade nomeados comumente usados:

Fonte da imagem: Imagens do google

Diferentes blocos presentes em um modelo típico de reconhecimento de entidade nomeada

Um modelo NER típico consiste nos três blocos a seguir:

Identificação de frase substantiva

Esta etapa tenta extrair todos os sintagmas nominais de um texto com a ajuda da análise de dependência e marcação de classes gramaticais.

Classificação de frase

Nesta etapa de classificação, classificamos todas as frases nominais extraídas da etapa anterior em suas respectivas categorias. Para eliminar a ambigüidade de locais, API de Google Maps pode fornecer um caminho muito bom. e para identificar nomes de pessoas ou nomes de empresas, os bancos de dados abertos de DBpedia, Wikipedia pode ser usado. Alem disso, também podemos fazer tabelas de pesquisa e dicionários combinando informações com a ajuda de diferentes fontes.

Desambiguação de entidade

As vezes, o que acontece é que as entidades são classificadas incorretamente, então, criar uma camada de validação sobre os resultados torna-se útil. O uso de gráficos de conhecimento pode ser aproveitado para esse fim. Alguns dos gráficos de conhecimento mais populares são:

Compreensão profunda do NER com um exemplo

Considere a seguinte frase:

Exemplo de reconhecimento de entidade nomeada

As células azuis representam os substantivos. Alguns desses substantivos descrevem coisas reais presentes no mundo.

Por exemplo, De cima, os seguintes substantivos representam lugares físicos em um mapa.

"Londres", "Inglaterra", "Reino Unido"

Seria ótimo se pudéssemos detectar que! Com aquela quantidade de informação, poderíamos extrair automaticamente uma lista de lugares do mundo real mencionados em um documento com a ajuda da PNL.

Portanto, o objetivo do NER é detectar e rotular esses substantivos com os conceitos do mundo real que eles representam.

Então, quando executamos cada token presente na frase por meio de um modelo de marcação NER, nossa oração se parece com esta,

exemplo 1 Reconhecimento de entidade nomeada

Vamos analisar o que exatamente o sistema NER faz.

Os sistemas NER não fazem apenas uma pesquisa simples no dicionário. Em vez de, eles estão usando o contexto de como uma palavra aparece na frase e um modelo estatístico para adivinhar que tipo de substantivo aquela palavra em particular representa.

Como o NER facilita a extração de dados estruturados de texto, tem muitos usos. É um dos métodos mais fáceis de obter rapidamente valor perspicaz de um pipeline de PNL..

Se você quiser experimentar o NER, Veja o Ligação.

Como funciona o reconhecimento de entidade nomeada?

Como podemos simplesmente observar, depois de ler um determinado texto, podemos naturalmente reconhecer entidades nomeadas como pessoas, valores, Localizações, etc.

Por exemplo, Considere a seguinte frase:

Frase: Sundar Pichai, o CEO da Google Inc. está andando nas ruas da Califórnia. 

Da frase anterior, podemos identificar três tipos de entidades: (Entidades nomeadas)

  • (“Pessoa”: “Sundar Pichai”),
  • (“Org”: “Google Inc.”),
  • (“Localização”: “Califórnia”).

Mas fazer o mesmo com a ajuda de computadores, devemos primeiro ajudá-los a reconhecer entidades para que possam categorizá-las. Então, para faze-lo, podemos contar com a ajuda do aprendizado de máquina e do processamento de linguagem natural (PNL).

Vamos discutir o papel de ambos ao implementar NER usando computadores:

  • PNL: Isso estuda a estrutura e as regras da linguagem e cria sistemas inteligentes que são capazes de extrair significado do texto e da fala.
  • Aprendizado de máquina: Ajude as máquinas a aprender e melhorar ao longo do tempo.

Para saber o que é uma entidade, um modelo NER precisa ser capaz de detectar uma palavra ou sequência de palavras que compõem uma entidade (por exemplo, Califórnia) e decidir a que categoria de entidade pertence.

Então, como uma etapa final, podemos dizer que o coração de qualquer modelo NER é um processo de duas etapas:

  • Detectar uma entidade nomeada
  • Categorizar a entidade

Então, primeiro, precisamos criar categorias de entidades, Como nome, Localização, Evento, Organização, etc., e alimentar um modelo NER com dados de treinamento relevantes.

Mais tarde, marcando alguns exemplos de palavras e frases com suas entidades correspondentes, eventualmente, ensinaremos nosso modelo NER a detectar entidades e categorizá-las.

Casos de uso de reconhecimento de entidade nomeada

Como comentamos na seção anterior, o reconhecimento da entidade nomeada (BAIXA) isso nos ajudará a identificar facilmente os principais componentes em um texto, como nomes de pessoas, locais, marcas registradas, valores monetários e mais.

E extrair as entidades principais de um texto nos ajuda a classificar dados não estruturados e detectar informações importantes, o que é crucial se você tiver que lidar com grandes conjuntos de dados.

Então, Vamos dar uma olhada em alguns dos casos de uso interessantes de reconhecimento de entidade nomeada:

Suporte ao cliente

atendimento ao cliente vs cliente suporte vs sucesso do cliente 8995951

Fonte da imagem: Imagens do google

Vamos analisar o caso de uso de tíquete de suporte ao cliente em que lidamos com um número crescente de tíquetes, lá, podemos usar técnicas de reconhecimento de entidade nomeada para lidar com as solicitações do cliente com mais rapidez.

De uma perspectiva de negócios, se automatizarmos tarefas repetitivas de atendimento ao cliente, como categorizar os problemas e dúvidas dos clientes, vai economizar um tempo valioso para você. Como resultado, ajuda a melhorar suas taxas de resolução e aumenta a satisfação do cliente.

Aqui, também podemos usar a extração de entidade para extrair as informações relevantes, como nomes de produtos ou números de série, facilitando o envio de tickets para o agente ou equipe mais adequada para lidar com esse problema.

Obtenha uma visão do feedback do cliente

listen1-6920564

Fonte da imagem: Imagens do google

Para quase todas as empresas baseadas em produtos, análises online são uma ótima fonte de feedback do cliente, pois podem fornecer informações valiosas sobre o que os clientes gostam e não gostam em seus produtos e os aspectos de sua empresa que precisam de melhorias para o crescimento da empresa.

Então, aqui podemos usar os sistemas NER para organizar todo o feedback do cliente e detectar problemas recorrentes.

Por exemplo, Podemos usar o sistema NER para detectar locais que são mencionados com mais frequência em avaliações negativas de clientes, o que pode levar você a se concentrar em uma filial específica.

Sistema de recomendação

applsci-10-05510-g001-2224405

Fonte da imagem: Imagens do google

Muitos aplicativos modernos como o Netflix, Youtube, Facebook, etc. dependem de sistemas de recomendação para produzir experiências ideais para o cliente. Muitos desses sistemas são baseados no reconhecimento de entidades nomeadas, que pode fornecer sugestões com base no histórico de pesquisa do usuário.

Por exemplo, Se você assistir a muitos vídeos educacionais no YouTube, você receberá mais recomendações que foram classificadas como entidades educacionais.

Resumindo currículos

resume_summary_on_a_template_dark-4324658

Fonte da imagem: Imagens do google

Ao recrutar novas pessoas, os recrutadores passam muitas horas do dia revisando currículos e procurando o candidato certo. Cada currículo contém quase o mesmo tipo de informação, mas sua forma organizada e seu formato são diferentes, então se torna um exemplo clássico de dados não estruturados.

Então, aqui com a ajuda de um extrator de entidade, as equipes de recrutamento podem extrair instantaneamente as informações mais relevantes sobre os candidatos, de informações pessoais como nome, Morada, número de telefone, data de nascimento e email, etc., a informações relacionadas ao seu treinamento e experiência, como certificações, Títulos, nomes de empresas, habilidades, etc.

Mais alguns casos de uso de NER são:

  • Otimização de algoritmo de mecanismo de pesquisa,
  • Classificação de conteúdo para canais de notícias, etc.

Como posso usar o NER?

Se você está trabalhando em uma declaração de problema de negócios e acha que sua empresa poderia se beneficiar do NER, você pode usá-lo facilmente com a ajuda das seguintes excelentes bibliotecas de código aberto:

Cada um tem seus prós e contras, que você pode explorar consultando os links mencionados acima.

Isso encerra nossa parte 10 da série de blogs sobre processamento de linguagem natural!

Outros posts meus

Você também pode verificar minhas postagens anteriores.

Postagens anteriores do blog de ciência de dados.

LinkedIn

Aqui está meu perfil do Linkedin no caso de você querer se conectar comigo. Ficarei feliz em estar conectado com você.

Correio eletrônico

Para qualquer consulta, você pode me enviar um e-mail em Gmail.

Notas finais

Obrigado pela leitura!

Espero que tenha gostado do artigo. Se você gosta, compartilhe com seus amigos também. Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você. 😉

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.