Guia para processamento de linguagem natural em Python (Papel -1)

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Introdução

Computadores e máquinas são ótimos para trabalhar com dados tabulares ou planilhas. Porém, humanos geralmente se comunicam em palavras e frases, não na forma de tabelas ou planilhas, e muitas das informações que os humanos falam ou escrevem estão presentes de uma forma não estruturada. Por tanto, não é muito compreensível que os computadores interpretem essas linguagens.

Portanto, no processamento de linguagem natural (PNL), nosso objetivo é tornar o texto de computador não estruturado compreensível e recuperar informações significativas dele.

Vamos definir formalmente o processamento de linguagem natural (PNL),

Processamento de linguagem natural (PNL) é um subcampo de inteligência artificial, envolvendo interações humano-computador.

Então, neste artigo, discutiremos alguns dos conceitos básicos relacionados à PNL. Este artigo é parte de uma série de blog sobre processamento de linguagem natural (PNL).

Esta é a parte 1 da série de blogs no Guia passo a passo para processamento de linguagem natural.

Nota importante

Depois de completar alguns tópicos, existem algumas questões práticas (Teste seu conhecimento) já que você tem que resolver e dar a resposta na caixa de comentários para que você possa verificar seu entendimento de um tópico específico.

Tabela de conteúdo

1. O que é processamento de linguagem natural (PNL)?

2. Aplicativos de processamento de linguagem natural

3. Compreendendo o processamento de linguagem natural

4. Diferença entre PNL baseada em regras e PNL baseada em estatísticas

5. Componentes do processamento de linguagem natural

6. Ambiguidade e incerteza no processamento de linguagem natural

O que é processamento de linguagem natural?

Processamento de linguagem natural (PNL) é um subcampo da ciência da computação e inteligência artificial que lida com as interações entre computadores e linguagens humanas (natural). Esto se vuelve crucial cuando queremos aplicar algoritmos de aprendizaje automático o aprendizado profundo a un conjunto de datos que contiene texto y voz.

Por exemplo, podemos usar a PNL para criar sistemas de inteligência artificial como,

  • Reconhecimento de voz,
  • Resumo de documentos,
  • Máquina tradutora,
  • Detecção de spam,
  • Reconhecimento de entidade nomeada,
  • Responder a perguntas,
  • autocompletar,
  • Escrita preditiva, etc.

Na atualidade, a maioria dos nossos smartphones tem um sistema de reconhecimento de voz. Esses smartphones usam PNL para entender a linguagem natural e dar a resposta. O que mais, a maioria das pessoas usa laptops cujo sistema operacional possui reconhecimento de voz integrado.

Teste seu conhecimento

Qual das opções a seguir é o campo do processamento de linguagem natural?

  • Ciência da Computação
  • Inteligência artificial
  • Lingüística computacional
  • Todo o interior

Aplicativos de PNL

Algumas aplicações de processamento de linguagem natural são as seguintes:

Cortana

1txj0kr4jvrtltmvxzfu8lw-9927551

Fonte da imagem: Imagens do google

O sistema operacional da Microsoft tem um assistente virtual chamado Cortana que pode reconhecer uma voz natural. Suas aplicações incluem

  • Definir lembretes
  • Aplicativos abertos,
  • Enviar e-mail para qualquer pessoa,
  • Jogue para se divertir,
  • Rastreamento de voos e pacotes,
  • Verifique o tempo, etc.

Se você quiser ler mais sobre os comandos da Cortana, veja o link aqui.

Siri

1-aukczbxivohi-agx4j8pq-7097538

Fonte da imagem: Imagens do google

Siri é um assistente virtual criado por sistemas operacionais iOS, watchOS, Mac OS, HomePod y tvOS de Apple Inc. Novamente, com isso você pode fazer muitas coisas com comandos de voz:

  • Inicie uma chamada com qualquer pessoa
  • Envie uma mensagem de texto para alguém
  • Enviar um correio eletronico
  • Defina um cronômetro
  • Tire uma foto
  • Abra um aplicativo
  • Definir um alarme
  • Use a navegação, etc.

Aqui é uma lista completa de todos os comandos Siri.

Gmail

1ftphu7pqgibnngbwg5zfwa-1381652

Fonte da imagem: Imagens do google

Gmail é o famoso serviço de e-mail desenvolvido pelo Google e usa detecção de spam para filtrar alguns e-mails de spam por processamento de texto, em que você recebe os textos daquele e-mail específico que está tentando encontrar como spam ou não.

Teste seu conhecimento

Quais das opções a seguir são casos de uso de PNL?

  • Detecta objetos em uma imagem
  • Reconhecimento facial
  • Fala biométrica
  • Resumo do texto

Compreendendo o processamento de linguagem natural

Compreendendo o processamento de linguagem natural

Fonte da imagem: Imagens do google

Nós, como seres humanos, não é uma tarefa muito difícil realizar processamento de linguagem natural (PNL), mas mesmo assim, nós não somos perfeitos. Muitas vezes entendemos mal uma coisa por outra e, frequentemente, interpretamos as mesmas frases ou palavras de uma maneira diferente.

Por exemplo, Considere as seguintes frases e tente entender sua interpretação de muitas maneiras diferentes:

Exemplo 1

Frase: Eu vi um estudante em uma colina com um microscópio.

Estas são várias interpretações da frase anterior mostrada abaixo:

  • Há um estudante na colina e eu olhei para ele com meu microscópio.
  • Há um estudante na colina e ele tem um microscópio.
  • Estou em uma colina e vi um aluno usando meu microscópio.
  • Estou em uma colina e vi um aluno que tem um microscópio.
  • Há um estudante em uma colina e eu vi algo com meu microscópio.

Exemplo 2

Frase: Você pode me ajudar com a lata?

Na frase anterior, observamos que existem duas palavras “posso”, mas eles têm significados diferentes. Aqui.

A primeira palavra “poderia” é usado para fazer uma pergunta.

A segunda palavra “anos” que é usado no final da frase é usado para representar um recipiente que contém algumas coisas como comida ou líquidos, etc.

Que conclusões podemos inferir dos dois exemplos anteriores?

Dos dois exemplos acima, podemos ver que o processamento da linguagem não é “determinista”, quer dizer, a mesma língua tem as mesmas interpretações, e algo adequado para uma pessoa pode não ser adequado para outra. Portanto, processamento de linguagem natural (PNL) tem uma abordagem não determinística.

Em palavras simples, podemos usar o Processamento de Linguagem Natural para criar um novo sistema inteligente ou de IA que pode entender da mesma forma que o humano e interpretar a linguagem em diferentes situações.

Diferença entre PNL baseada em regras e PNL estatística

O processamento da linguagem natural é dividido em duas abordagens diferentes:

Processamento de linguagem natural baseado em regras

Use o raciocínio de bom senso para processar tarefas.

Por exemplo,

  • Temperaturas congelantes podem causar morte ou
  • Café quente pode queimar a pele das pessoas
  • Algumas outras tarefas de raciocínio de bom senso, etc.

Porém, esses processos podem demorar mais e exigir esforço manual.

Processamento estatístico de linguagem natural

Este tipo de PNL usa grandes quantidades de dados e tem como objetivo tirar conclusões deles. Para treinar modelos de PNL, usa algoritmos de aprendizado de máquina. Depois de concluir o processo de treinamento em grandes quantidades de dados, o modelo treinado terá resultados positivos com dedução.

Comparação (prós e contras)

Comparação (prós e contras)

Componentes da PNL

Os dois componentes básicos em que a PNL pode ser dividida são os seguintes:

  • Compreensão de linguagem natural (NLU)
  • Geração de linguagem natural (NLG)

Componentes da PNL

Fonte da imagem: Imagens do google

Compreensão de linguagem natural (NLU)

NLU é naturalmente mais difícil do que tarefas de NLG. Vejamos os desafios que uma máquina enfrenta ao tentar entender a linguagem natural.

Ao aprender ou tentar interpretar um idioma, existem muitas ambigüidades.

Frase: Ele está procurando um par.

Aqui, O que você entende por “partida” – Casais jogam ou cricket / futebol.

Ambigüidade lexical pode ocorrer quando uma palavra tem um significado diferente, quer dizer, tem mais de um significado, e a frase em que essa palavra é usada pode ser interpretada de forma diferente com base em seu significado correto. Para resolver esses tipos de ambigüidades até certo ponto, podemos usar técnicas de marcação de classes gramaticais.

Frase: O frango esta pronto para comer.

O frango está pronto para comer sua refeição ou o frango está pronto para outra pessoa comer?? Nunca se sabe.

Ambiguidade sintática ocorre quando observamos que pode haver mais de um significado em uma sequência de palavras. Também conhecido como ambigüidade gramatical.

Frase: Chirag conheceu Kshitiz e Dinesh. Eles foram a um restaurante.

Aqui, eles se referem a Kshitiz e Dinesh ou todos.

Ambigüidade referencial: Muitas vezes, em um texto, uma entidade é mencionada (algo / alguém) e então é referenciado novamente, possivelmente em uma frase diferente, com a ajuda de outra palavra. Então, esses diferentes pronomes podem causar ambigüidade quando não está claro a qual substantivo você está se referindo.

Geração de linguagem natural (NLG)

É definido como o processo de geração ou extração de algumas frases e sentenças significativas na forma de linguagem natural com a ajuda de alguma representação interna.

Este componente inclui as três etapas básicas:

  • Planejamento de texto: Envolve a recuperação de informações relevantes da base de conhecimento.
  • Planejamento de frases: Envolve processos como escolher as palavras necessárias, formar frases significativas, defina o tom da frase.
  • Realização de texto: Envolve mapear os planos de oração na estrutura da frase.

Teste seu conhecimento

Pergunta 1: PNL é dividido em dois subcampos:

  • simbólico e numérico
  • algorítmico e heurístico
  • tempo e movimento
  • compreensão e geração

Pergunta 2: Qual das opções a seguir é usada para mapear os planos das frases na estrutura da frase??

  • Planejamento de texto
  • Planejamento de frases
  • Realização de texto
  • Todas as anteriores

Ambiguidade e incerteza na PNL

No processamento de linguagem natural, ambigüidade pode ser referida como a capacidade de ser entendida em mais de uma maneira. Em termos simples, podemos entender a ambigüidade em relação à capacidade de ser compreendido em mais de uma maneira. A linguagem natural é muito ambígua.

A PNL tem os seguintes cinco tipos de ambigüidades:

Ambigüidade lexical

A ambigüidade lexical é a ambigüidade implícita na ambigüidade de uma única palavra.

Por exemplo, Vamos considerar as seguintes sentenças:

Ela ganhou duas medalhas de prata
Ela fez um discurso de prata
Suas preocupações tinham prateado seu cabelo

Nas frases anteriores, como tratamos a palavra prata- como um substantivo, um adjetivo ou um verbo.

Ambiguidade sintática

A ambigüidade sintática ocorre quando uma frase é analisada de maneiras diferentes.

Por exemplo, Vamos fazer uma oração

Frase: O homem viu a garota com o microscópio

Esta frase é ambígua como:

se o homem viu a garota sob um microscópio ou a viu através de seu microscópio.

Ambigüidade semântica

Este tipo de ambigüidade ocorre quando o significado das próprias palavras pode ser mal interpretado. Em palavras simples, a ambigüidade semântica ocorre quando uma frase contém uma palavra ou frase ambígua.

Por exemplo, Vamos fazer uma oração

Frase: O ônibus bateu no poste enquanto ele se movia

A frase anterior tem ambiguidade semântica porque esta frase pode ter duas interpretações

  • “O ônibus em movimento atingiu o poste”
  • "O ônibus colidiu com o poste enquanto o poste estava se movendo".

Ambigüidade anafórica

Anáfora significa quando o mesmo início de uma frase é repetido várias vezes e ocorre ambigüidade anafórica devido ao uso de entidades de anáfora na fala.

Por exemplo, Vamos ter um grupo de orações:

Frase: O cachorro subiu a colina correndo. Era muito íngreme. Logo se cansou. 

Aqui, a referência anafórica de “isso” em duas situações causa ambigüidade.

Ambiguidade pragmática

Esses tipos de ambigüidades ocorrem quando o contexto de uma frase fornece múltiplas interpretações. Em palavras simples, podemos dizer que essas ambigüidades surgem quando a afirmação não é específica.

Por exemplo, Vamos fazer uma oração

Frase: eu também gosto de você

que pode ter várias interpretações como:

  • Eu gosto (como você gosta de mim)
  • Eu gosto (como os outros).

Isso encerra nossa parte 1 da série de blogs sobre processamento de linguagem natural!

Notas finais

Obrigado pela leitura!

Se você gostou e quer saber mais, visite meus outros artigos sobre ciência de dados e aprendizado de máquina clicando no Ligação

Sinta-se à vontade para entrar em contato comigo em Linkedin, Correio eletrônico.

Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você.

Sobre o autor

Chirag Goyal

Atualmente, Estou cursando bacharelado em tecnologia (B.Tech) em Ciência da Computação e Engenharia da Instituto Indiano de Tecnologia de Jodhpur (IITJ). Estou muito animado com o aprendizado de máquina, aprendizado profundo e inteligência artificial.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.