Projetos de processamento de áudio | Processamento de Áudio de Aprendizado Profundo

Conteúdo

Introdução

Imagine um mundo onde as máquinas entendem o que você quer e como você se sente quando liga para o atendimento ao cliente; se você não está satisfeito com algo, fale com uma pessoa rapidamente. Se você estiver procurando por informações específicas, você pode não precisar falar com uma pessoa (A não ser que você queira!).

Esta vai ser a nova ordem mundial; você já pode ver que isso está acontecendo em grande medida. Veja os destaques de 2017 na indústria de ciência de dados. Você pode ver os avanços que o aprendizado profundo estava trazendo em um campo que antes era difícil de resolver. Um dos campos que o aprendizado profundo tem potencial para ajudar a abordar é o processamento de áudio. / voz, especialmente devido à sua natureza desestruturada e grande impacto.

Então, para os curiosos, Eu compilei uma lista de tarefas que é importante observar quando você suja as mãos ao iniciar o processamento de áudio. Tenho certeza de que haverá mais alguns avanços no futuro usando o Deep Learning.

A postagem é estruturada para explicar cada tarefa e sua relevância. Também existe um documento de pesquisa que inclui os detalhes dessa tarefa específica., junto com um estudo de caso que o ajudaria a começar a resolver o dever de casa.

Então vamos começar!

1. Classificação de áudio

A classificação de áudio é um obstáculo fundamental no campo do processamento de áudio. A tarefa é essencialmente extrair características do áudio e, subsequentemente, identificar a qual classe o áudio pertence.. Muitos aplicativos úteis associados à classificação de áudio podem ser encontrados na natureza, como classificação de gênero, credenciamento de instrumentos e identificação do artista.

Essa tarefa também é o tópico mais explorado em processamento de áudio.. Muitos posts foram publicados neste campo no ano passado. Na realidade, nós também hospedamos um praticante de hackathon para a colaboração da comunidade para resolver esta tarefa específica.

papel brancohttp://ieeexplore.ieee.org/document/5664796/?reload=true

Uma abordagem comum para resolver uma tarefa de classificação de áudio é pré-processar as entradas de áudio para extrair características úteis e, em seguida, aplicar um algoritmo de classificação a elas.. Como um exemplo, no estudo de caso abaixo, se recebermos um extrato de 5 segundos de um som, e a tarefa é identificar a que classe pertence, ou um cachorro latindo ou um som de perfuração. Conforme mencionado na postagem, uma abordagem para lidar com isso é extrair um recurso de áudio chamado MFCC e, em seguida, passá-lo por uma rede neural para obter a classe apropriada.

Caso de estudo – https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. Impressões digitais de áudio

O objetivo da impressão digital de áudio é determinar o “resumo” áudio digital. Isso é feito para identificar o áudio de uma amostra de áudio. Shazam é ​​um excelente exemplo de aplicativo de impressão digital de áudio. Reconhece música com base nos primeiros dois a cinco segundos de uma música. Apesar disto, ainda existem situações em que o sistema trava, especialmente quando há muito ruído de fundo.

papel brancohttp://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

Para resolver este problema, uma abordagem pode ser representar o áudio de uma maneira diferente, para que possa ser facilmente decifrado. Subseqüentemente, podemos descobrir os padrões que diferenciam o áudio do ruído de fundo. No estudo de caso abaixo, o autor converte o áudio bruto em espectrogramas e, em seguida, usa algoritmos de pesquisa de pico e hashes de impressão digital para estabelecer as impressões digitais desse arquivo de áudio.

Caso de estudohttp://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. Marcação automática de música

Marcação de música é uma versão mais complexa da classificação de áudio. Aqui, podemos ter várias classes às quais cada áudio pode pertencer, também conhecido como um obstáculo de classificação de várias tags. Uma aplicação viável desta tarefa pode ser a criação de metadados para o áudio para poder pesquisá-los posteriormente.. O aprendizado profundo ajudou a resolver essa tarefa até certo ponto, o que pode ser visto no estudo de caso abaixo.

papel brancohttps://link.springer.com/article/10.1007/s10462-012-9362-y

Como visto na maioria das tarefas, a primeira etapa é sempre extrair características da amostra de áudio. Subseqüentemente, ordenar de acordo com as nuances do áudio (como um exemplo, se o áudio contém mais ruído instrumental do que a voz do cantor, o rótulo pode ser “instrumental”). Isso pode ser feito por meio de aprendizado de máquina ou métodos de aprendizado profundo.. O estudo de caso mencionado abaixo usa aprendizado profundo para resolver o problema, especificamente a rede neural recorrente de convolução em conjunto com extração de frequência Mel.

Caso de estudohttps://github.com/keunwoochoi/music-auto_tagging-keras

4. Segmentação de Áudio

A segmentação significa literalmente dividir um objeto específico em partes (o segmentos) de acordo com um conjunto definido de características. Segmentação, especialmente para análise de dados de áudio, é uma etapa importante de pré-processamento. Isso ocorre porque podemos segmentar um sinal de áudio longo e barulhento em segmentos curtos e homogêneos. (sequências de áudio curtas práticas) que são usados ​​para processamento posterior. Uma aplicação da tarefa é a segmentação dos sons cardíacos, Em outras palavras, identificar sons cardíacos específicos.

papel brancohttp://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

Podemos transformar isso em um obstáculo de aprendizagem supervisionada, onde cada carimbo de data / hora pode ser categorizado com base nos segmentos necessários. Subseqüentemente, podemos aplicar uma abordagem de classificação de áudio para corrigir o problema. No estudo de caso abaixo, a tarefa é segmentar o som do coração em dois segmentos (ou y dub), para que possamos identificar uma anomalia em cada segmento. Isso pode ser resolvido através da extração de características de áudio e, posteriormente, o aprendizado profundo pode ser aplicado para classificação.

Caso de estudo – https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. Separação da fonte de áudio

Separação da fonte de áudio envolve isolar um ou mais sinais de origem de uma mistura de sinais. Uma das aplicações mais comuns disso é identificar a letra do áudio para tradução simultânea (karaokê, como um exemplo). Este é um exemplo clássico mostrado no curso de aprendizado de máquina de Andrew Ng, onde você separa o som do alto-falante da música de fundo.

papel brancohttp://ijcert.org/ems/ijcert_papers/V3I1103.pdf

Um cenário de uso típico envolve:

  • carregando um arquivo de áudio
  • calcular uma transformação de tempo-frequência para obter um espectrograma, e
  • usando alguns dos algoritmos de separação de fontes (como fatoração de matriz não negativa) para obter uma máscara de tempo-frequência

Subseqüentemente, a máscara é multiplicada com o espectrograma e o resultado é convertido de volta para o domínio do tempo.

Caso de estudohttps://github.com/IoSR-Surrey/untwist

6. Controle de tempo

Como o nome sugere, o objetivo aqui é rastrear a localização de cada batida em uma coleção de arquivos de áudio. Rastreamento de ritmo pode ser usado para automatizar tarefas demoradas que precisam ser concluídas para sincronizar eventos com a música. É útil em várias aplicações, como edição de vídeo, edição de áudio e improvisação entre humanos e computadores.

papel brancohttps://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

Uma abordagem para solucionar problemas de rastreamento de batida pode ser analisar o arquivo de áudio e usar um algoritmo de detecção de inicialização para rastrear as batidas.. Mesmo que as técnicas usadas para detecção de inicialização dependam fortemente de engenharia de função de áudio e aprendizado de máquina, o aprendizado profundo pode ser facilmente usado aqui para obter o máximo dos resultados.

Caso de estudohttps://github.com/adamstark/BTrack

7. Recomendação musical

Graças a internet, agora temos milhões de músicas que podemos ouvir a qualquer momento. Ironicamente, Isso tornou ainda mais difícil descobrir novas músicas devido ao grande número de alternativas que existem.. Recomendação musical Os sistemas ajudam a lidar com essa sobrecarga de informações, recomendando automaticamente novas músicas aos ouvintes. Provedores de conteúdo como Spotify e Saavn desenvolveram mecanismos de recomendação de música altamente sofisticados. Esses modelos aproveitam o histórico de escuta do usuário, entre muitos outros recursos, para criar listas de recomendações personalizadas.

papel brancohttps://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

Podemos enfrentar o desafio de personalizar as preferências de escuta treinando um modelo de regressão / aprendizado profundo. Isso pode ser usado para prever as representações latentes de músicas que foram obtidas a partir de um modelo de filtragem colaborativa.. Desta maneira, poderíamos prever a representação de uma música no espaço de filtragem colaborativa, mesmo se nenhum dado de uso estiver disponível.

Caso de estudohttp://benanne.github.io/2014/08/05/spotify-cnns.html

8. Recuperação de música

Uma das tarefas mais difíceis no processamento de áudio, Mrecuperação usic visa essencialmente construir um motor de busca baseado em áudio. Mesmo que possamos fazer isso resolvendo subtarefas como impressão digital de áudio, esta tarefa abrange muito mais do que isso. Como um exemplo, também temos que resolver diferentes tarefas menores para diferentes tipos de recuperação de música (detecção de anel seria ótimo para identificação de gênero). Neste momento, não há nenhum outro sistema que foi desenvolvido para atender aos padrões esperados da indústria.

papel brancohttp://www.nowpublishers.com/article/Details/INR-042

A tarefa de recuperar a música é dividida em etapas menores e mais fáceis, incluindo análise tonal (como um exemplo, melodia e harmonia) e o ritmo ou andamento (como um exemplo, rastreamento de tempo). Subseqüentemente, com base nessas análises individuais, as informações são extraídas e usadas para recuperar amostras de áudio semelhantes.

Caso de estudohttps://youtu.be/oGGVvTgHMHw

9. Transcrição de música

Transcrição de música é outra tarefa desafiadora de processamento de áudio. É sobre anotar áudio e criar uma espécie de “Folha” para gerar música a partir dele posteriormente. O esforço manual envolvido em transcrevendo música de gravações pode ser enorme. Isso varia muito, dependendo da complexidade do música, quão boas nossas habilidades de escuta são e quão detalhadas queremos transcrição ser.

papel brancohttp://ieeexplore.ieee.org/abstract/document/7955698

A abordagem da transcrição de música é equivalente à do credenciamento de voz, onde as notas musicais são transcritas em extratos líricos de instrumentos.

Caso de estudohttps://youtu.be/9boJ-Ai6QFM

10. Iniciar detecção

A detecção de lançamento é a primeira etapa na análise de um fluxo de áudio / música. Para a maioria das tarefas mencionadas anteriormente, é algo necessário para realizar uma detecção de inicialização, Em outras palavras, detectar o início de um evento de áudio. A detecção de lançamento foi essencialmente a primeira tarefa que os pesquisadores tentaram resolver no processamento de áudio..

papel brancohttp://citeseerx.ist.psu.edu/viewdoc/download?doi = 10.1.1.332.989&rep = rep1&type = pdf

A detecção de início geralmente é feita por meio de:

  • calcular uma função de novidade espectral
  • encontrar picos na função de novidade espectral
  • recuando de cada pico para um mínimo local anterior. O retrocesso pode ser útil para encontrar pontos de interrupção, de modo que o início ocorra logo após o início do segmento.

Caso de estudohttps://musicinformationretrieval.com/onset_detection.html

Notas finais

Neste post, Mencionei algumas tarefas que podem ser consideradas ao solucionar problemas de processamento de áudio. Espero que você ache a postagem útil ao abordar projetos relacionados a áudio e fala.

Aprender, envolver , Picar e ser contratado!

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.