Progetti di elaborazione audio | Elaborazione audio di apprendimento profondo

Contenuti

introduzione

Immagina un mondo in cui le macchine capiscono cosa vuoi e come ti senti quando chiami il servizio clienti; se non sei soddisfatto di qualcosa, parla velocemente con una persona. Se stai cercando informazioni specifiche, potrebbe non essere necessario parlare con una persona (A meno che tu non voglia!).

Questo sarà il nuovo ordine mondiale; puoi già vedere che questo sta accadendo in larga misura. Guarda i momenti salienti di 2017 nel settore della scienza dei dati. Puoi vedere i progressi che il deep learning stava portando in un campo che prima era difficile da risolvere. Uno di quei campi che il deep learning ha il potenziale per aiutare ad affrontare è l'elaborazione audio. / voce, soprattutto per la sua natura destrutturata e di grande impatto.

Quindi, per i curiosi, Ho compilato una lista di cose da fare che è importante notare sporcarsi le mani quando si inizia con l'elaborazione audio. Sono sicuro che ci saranno ulteriori progressi in futuro utilizzando il Deep Learning.

Il post è strutturato per spiegare ogni attività e la sua rilevanza. C'è anche un documento di ricerca che include i dettagli di quel compito specifico., insieme a un caso di studio che ti aiuterebbe a iniziare a risolvere i compiti.

Quindi iniziamo!

1. Classificazione audio

La classificazione audio è un ostacolo fondamentale nel campo dell'elaborazione audio. Il compito è essenzialmente quello di estrarre caratteristiche dall'audio e successivamente identificare a quale classe appartiene l'audio.. Molte applicazioni utili associate alla classificazione audio si trovano in natura, come la classificazione di genere, accreditamento dello strumento e identificazione dell'artista.

Questo compito è anche l'argomento più esplorato nell'elaborazione audio.. Molti post sono stati pubblicati in questo campo nell'ultimo anno. In realtà, abbiamo anche ospitato a praticante di hackathon per la collaborazione della comunità per risolvere questo particolare compito.

carta biancahttp://ieeexplore.ieee.org/document/5664796/?reload=true

Un approccio comune alla risoluzione di un'attività di classificazione audio consiste nel preelaborare gli ingressi audio per estrarre caratteristiche utili e quindi applicare un algoritmo di classificazione.. Come esempio, nel caso di studio qui sotto, se ci viene dato un estratto di 5 secondi di un suono, e il compito è identificare a quale classe appartiene, o un cane che abbaia o un suono di perforazione. Come detto nel post, un approccio per affrontare questo è estrarre una funzionalità audio chiamata MFCC e quindi passarla attraverso una rete neurale per ottenere la classe appropriata.

Argomento di studio – https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. Impronte audio

L'obiettivo dell'audio fingerprinting è determinare il “astratto” audio digitale. Questo viene fatto per identificare l'audio da un campione audio. Shazam è un eccellente esempio di app per impronte digitali. Riconosce la musica in base ai primi due-cinque secondi di una canzone. Nonostante questo, ci sono ancora situazioni in cui il sistema va in crash, soprattutto quando c'è molto rumore di fondo.

carta biancahttp://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

Risolvere questo problema, un approccio potrebbe essere quello di rappresentare l'audio in un modo diverso, in modo che possa essere facilmente decifrato. Successivamente, possiamo scoprire i pattern che differenziano l'audio dal rumore di fondo. Nel caso di studio qui sotto, l'autore converte l'audio grezzo in spettrogrammi e quindi utilizza algoritmi di ricerca dei picchi e hash delle impronte digitali per stabilire le impronte digitali di quel file audio.

Argomento di studiohttp://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. Etichettatura automatica della musica

Etichettatura musicale è una versione più complessa della classificazione audio. Qui, possiamo avere diverse classi a cui ogni audio può appartenere, noto anche come ostacolo allo smistamento multi-tag. Un'applicazione fattibile di questo compito può essere la creazione di metadati per l'audio per poterli cercare in seguito.. Il deep learning ha aiutato in una certa misura a risolvere questo compito, cosa si può vedere nel caso di studio qui sotto.

carta biancahttps://link.springer.com/article/10.1007/s10462-012-9362-y

Come si vede con la maggior parte delle attività, il primo passo è sempre quello di estrarre le caratteristiche dal campione audio. Successivamente, ordina in base alle sfumature dell'audio (come esempio, se l'audio contiene più rumore strumentale rispetto alla voce del cantante, l'etichetta potrebbe essere “strumentale”). Questo può essere fatto attraverso l'apprendimento automatico o metodi di apprendimento profondo.. Il caso di studio menzionato di seguito utilizza il deep learning per risolvere il problema, in particolare la rete neurale ricorrente di convoluzione in combinazione con l'estrazione di frequenza Mel.

Argomento di studiohttps://github.com/keunwoochoi/music-auto_tagging-keras

4. Segmentazione audio

Segmentazione significa letteralmente dividere un particolare oggetto in parti (i segmenti) secondo un insieme definito di caratteristiche. Segmentazione, specialmente per l'analisi dei dati audio, è un'importante fase di pre-elaborazione. Questo perché possiamo segmentare un segnale audio lungo e rumoroso in segmenti brevi e omogenei. (brevi sequenze audio pratiche) che vengono utilizzati per ulteriori elaborazioni. Un'applicazione del compito è la segmentazione dei suoni cardiaci, In altre parole, identificare suoni cardiaci specifici.

carta biancahttp://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

Possiamo trasformarlo in un ostacolo all'apprendimento supervisionato, dove ogni timestamp può essere classificato in base ai segmenti richiesti. Successivamente, possiamo applicare un approccio di classificazione audio per risolvere il problema. Nel caso di studio qui sotto, il compito è segmentare il suono del cuore in due segmenti (o y dub), in modo da poter identificare un'anomalia in ogni segmento. Può essere risolto attraverso l'estrazione delle caratteristiche audio e in seguito l'apprendimento profondo può essere applicato per la classificazione.

Argomento di studio – https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. Separazione della sorgente audio

Separazione della sorgente audio comporta l'isolamento di uno o più segnali sorgente da un mix di segnali. Una delle applicazioni più comuni di questo è identificare la lettera dell'audio per la traduzione simultanea (karaoke, come esempio). Questo è un classico esempio mostrato nel corso di machine learning di Andrew Ng, dove separi il suono dell'altoparlante dalla musica di sottofondo.

carta biancahttp://ijcert.org/ems/ijcert_papers/V3I1103.pdf

Uno scenario di utilizzo tipico prevede:

  • caricamento di un file audio
  • calcolare una trasformata tempo-frequenza per ottenere uno spettrogramma, e
  • utilizzando alcuni degli algoritmi di separazione dei caratteri (come fattorizzazione di matrici non negative) per ottenere una maschera tempo-frequenza

Successivamente, la maschera viene moltiplicata con lo spettrogramma e il risultato viene riconvertito nel dominio del tempo.

Argomento di studiohttps://github.com/IoSR-Surrey/untwist

6. Tracciamento del tempo

Come suggerisce il nome, l'obiettivo qui è tracciare la posizione di ogni battito in una raccolta di file audio. Tracciamento del ritmo può essere utilizzato per automatizzare le attività che richiedono tempo che devono essere completate per sincronizzare gli eventi con la musica. È utile in varie applicazioni, come montaggio video, editing audio e improvvisazione tra uomo e computer.

carta biancahttps://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

Un approccio alla risoluzione dei problemi di tracciamento dei battiti potrebbe consistere nell'analizzare il file audio e utilizzare un algoritmo di rilevamento dell'avvio per tracciare i battiti.. Anche se le tecniche utilizzate per il rilevamento dell'avvio fanno molto affidamento sull'ingegneria delle funzioni audio e sull'apprendimento automatico, l'apprendimento profondo può essere facilmente utilizzato qui per ottenere il massimo dai risultati.

Argomento di studiohttps://github.com/adamstark/BTrack

7. Raccomandazione musicale

Grazie a Internet, ora abbiamo milioni di canzoni che possiamo ascoltare in qualsiasi momento. Ironia della sorte, Ciò ha reso ancora più difficile scoprire nuova musica a causa del gran numero di alternative esistenti.. Raccomandazione musicale I sistemi aiutano a gestire questo sovraccarico di informazioni consigliando automaticamente nuova musica agli ascoltatori. I fornitori di contenuti come Spotify e Saavn hanno sviluppato motori di raccomandazione musicale altamente sofisticati. Questi modelli sfruttano la cronologia di ascolto passata dell'utente, tra molte altre caratteristiche, per creare elenchi di consigli personalizzati.

carta biancahttps://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

Possiamo affrontare la sfida della personalizzazione delle preferenze di ascolto addestrando un modello di regressione / apprendimento profondo. Questo può essere usato per prevedere le rappresentazioni latenti delle canzoni ottenute da un modello di filtraggio collaborativo.. In questo modo, potremmo prevedere la rappresentazione di una canzone nello spazio di filtraggio collaborativo, anche se non sono disponibili dati sull'utilizzo.

Argomento di studiohttp://benanne.github.io/2014/08/05/spotify-cnns.html

8. Recupero della musica

Uno dei compiti più difficili nell'elaborazione audio, mrecupero usic mira essenzialmente a costruire un motore di ricerca basato sull'audio. Anche se possiamo farlo risolvendo attività secondarie come l'impronta digitale dell'audio, questo compito comprende molto di più di questo. Come esempio, dobbiamo anche risolvere diversi compiti più piccoli per diversi tipi di recupero della musica (il rilevamento dell'anello sarebbe ottimo per l'identificazione del genere). A quest'ora, non c'è nessun altro sistema che è stato sviluppato per soddisfare gli standard di settore previsti.

carta biancahttp://www.nowpublishers.com/article/Details/INR-042

Il compito di recuperare la musica è diviso in passaggi più piccoli e più facili, compresa l'analisi tonale (come esempio, melodia e armonia) e il ritmo o tempo (come esempio, monitoraggio del tempo). Successivamente, sulla base di queste analisi individuali, le informazioni vengono estratte e utilizzate per recuperare campioni audio simili.

Argomento di studiohttps://youtu.be/oGGVvTgHMHw

9. Trascrizione musicale

Trascrizione musicale è un altro compito impegnativo di elaborazione audio. Si tratta di annotare l'audio e creare una sorta di “foglia” per generare musica da esso in un secondo momento. Lo sforzo manuale coinvolto in trascrivere musica di registrazioni può essere enorme. Varia molto a seconda della complessità del canzone, quanto sono buone le nostre capacità di ascolto e quanto vogliamo dettagliare trascrizione essere.

carta biancahttp://ieeexplore.ieee.org/abstract/document/7955698

L'approccio alla trascrizione musicale è equivalente a quello dell'accreditamento vocale, dove le note musicali vengono trascritte in estratti lirici di strumenti.

Argomento di studiohttps://youtu.be/9boJ-Ai6QFM

10. Avvia rilevamento

Il rilevamento del lancio è il primo passo nell'analisi di un flusso audio / canzone. Per la maggior parte dei compiti precedentemente menzionati, è qualcosa di necessario per eseguire un rilevamento di avvio, In altre parole, rilevare l'inizio di un evento audio. Il rilevamento del lancio è stato essenzialmente il primo compito che i ricercatori hanno cercato di risolvere nell'elaborazione audio..

carta biancahttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep = rep1&tipo=pdf

Il rilevamento dell'avvio viene generalmente effettuato tramite:

  • calcolare una funzione di novità spettrale
  • trova picchi nella funzione di novità spettrale
  • recedendo da ciascun picco a un precedente minimo locale. Il backtracking può essere utile per trovare punti di interruzione in modo che l'esordio avvenga poco dopo l'inizio del segmento.

Argomento di studiohttps://musicinformationretrieval.com/onset_detection.html

Note finali

In questo post, Ho menzionato alcune attività che possono essere prese in considerazione durante la risoluzione dei problemi di elaborazione audio. Spero che il post ti sia utile quando affronti progetti relativi all'audio e al parlato.

Imparare, ingaggiare , taglio e fatti assumere!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.