Projets de traitement audio | Traitement audio d'apprentissage en profondeur

Contenu

introduction

Imaginez un monde où les machines comprennent ce que vous voulez et ce que vous ressentez lorsque vous appelez le service client; si vous n'êtes pas satisfait de quelque chose, parler à une personne rapidement. Si vous recherchez des informations spécifiques, vous n'aurez peut-être pas besoin de parler à une personne (Sauf si vous voulez!).

Ce sera le nouvel ordre mondial; vous pouvez déjà voir que cela se produit dans une large mesure. Voir les faits saillants de 2017 dans l'industrie de la science des données. Vous pouvez voir les avancées que le deep learning apportait dans un domaine qui était auparavant difficile à résoudre. L'un de ces domaines que l'apprentissage en profondeur a le potentiel d'aider à aborder est le traitement audio. / voix, surtout en raison de sa nature non structurée et de son grand impact.

Ensuite, pour les curieux, J'ai compilé une liste de choses à faire qu'il est important de noter pour se salir les mains lors du démarrage du traitement audio. Je suis sûr qu'il y aura d'autres avancées dans le futur en utilisant Deep Learning.

Le poste est structuré pour expliquer chaque tâche et sa pertinence. Il existe également un document de recherche qui comprend les détails de cette tâche spécifique., ainsi qu'une étude de cas qui vous aiderait à vous lancer dans la résolution de devoirs.

Alors commençons!

1. Classement audio

La classification audio est un obstacle fondamental dans le domaine du traitement audio. La tâche consiste essentiellement à extraire les caractéristiques de l'audio et à identifier par la suite à quelle classe appartient l'audio.. De nombreuses applications utiles associées à la classification audio peuvent être trouvées dans la nature, comme la classification par sexe, accréditation de l'instrument et identification de l'artiste.

Cette tâche est également le sujet le plus exploré en traitement audio.. De nombreux articles ont été publiés dans ce domaine au cours de la dernière année. En réalité, nous avons également accueilli un praticien du hackathon pour la collaboration de la communauté pour résoudre cette tâche particulière.

papier blanchttp://ieeexplore.ieee.org/document/5664796/?reload=true

Une approche courante pour résoudre une tâche de classification audio consiste à prétraiter les entrées audio pour extraire des caractéristiques utiles, puis à leur appliquer un algorithme de classification.. Par exemple, dans l'étude de cas ci-dessous, si on nous donne un extrait de 5 secondes d'un son, et la tâche est d'identifier à quelle classe il appartient, soit un chien qui aboie, soit un son de forage. Comme mentionné dans le post, une approche pour résoudre ce problème consiste à extraire une fonction audio appelée MFCC, puis à la transmettre à travers un réseau de neurones pour obtenir la classe appropriée.

Cas d'étude – https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. Empreintes audio

Le but de l'empreinte audio est de déterminer la “résumé” audio numérique. Ceci est fait pour identifier l'audio à partir d'un échantillon audio. Shazam est un excellent exemple d'application d'empreintes digitales audio. Reconnaît la musique en fonction des deux à cinq premières secondes d'une chanson. Malgré cela, il y a encore des situations où le système plante, surtout quand il y a beaucoup de bruit de fond.

papier blanchttp://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

Pour résoudre ce problème, une approche pourrait être de représenter l'audio d'une manière différente, afin qu'il puisse être facilement déchiffré. Ensuite, nous pouvons découvrir les modèles qui différencient l'audio du bruit de fond. Dans l'étude de cas ci-dessous, l'auteur convertit l'audio brut en spectrogrammes, puis utilise des algorithmes de recherche de pointe et des hachages d'empreintes digitales pour établir les empreintes digitales de ce fichier audio.

Cas d'étudehttp://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. Marquage automatique de la musique

Marquage de la musique est une version plus complexe de la classification audio. Ici, on peut avoir plusieurs classes auxquelles chaque audio peut appartenir, également connu sous le nom de barrière de tri multi-tags. Une application réalisable de cette tâche peut être la création de métadonnées pour l'audio afin de pouvoir les rechercher plus tard.. L'apprentissage en profondeur a aidé à résoudre cette tâche dans une certaine mesure, ce qui peut être vu dans l'étude de cas ci-dessous.

papier blanchttps://link.springer.com/article/10.1007/s10462-012-9362-y

Comme vu avec la plupart des tâches, la première étape consiste toujours à extraire les caractéristiques de l'échantillon audio. Ensuite, ordre selon les nuances de l'audio (par exemple, si l'audio contient plus de bruit instrumental que la voix du chanteur, l'étiquette pourrait être “instrumental”). Cela peut être fait grâce à des méthodes d'apprentissage automatique ou d'apprentissage en profondeur.. L'étude de cas mentionnée ci-dessous utilise l'apprentissage en profondeur pour résoudre le problème, spécifiquement le réseau neuronal récurrent de convolution en conjonction avec l'extraction de fréquence Mel.

Cas d'étudehttps://github.com/keunwoochoi/music-auto_tagging-keras

4. Segmentation audio

La segmentation signifie littéralement diviser un objet particulier en parties (les segments) selon un ensemble défini de caractéristiques. Segmentation, en particulier pour l'analyse des données audio, est une étape de pré-traitement importante. En effet, nous pouvons segmenter un signal audio long et bruyant en segments courts et homogènes. (courtes séquences audio pratiques) qui sont utilisés pour un traitement ultérieur. Une application de la tâche est la segmentation des sons cardiaques, En d'autres termes, identifier des bruits cardiaques spécifiques.

papier blanchttp://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

Nous pouvons transformer cela en un obstacle à l'apprentissage supervisé, où chaque horodatage peut être classé en fonction des segments requis. Ensuite, nous pouvons appliquer une approche de classification audio pour résoudre le problème. Dans l'étude de cas ci-dessous, la tâche consiste à segmenter le son du cœur en deux segments (ou y dub), afin que nous puissions identifier une anomalie dans chaque segment. Il peut être résolu grâce à l'extraction de caractéristiques audio et un apprentissage approfondi ultérieur peut être appliqué pour la classification.

Cas d'étude – https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. Séparation des sources audio

Séparation des sources audio il s'agit d'isoler un ou plusieurs signaux source d'un mélange de signaux. L'une des applications les plus courantes est identifier la lettre de l'audio pour la traduction simultanée (karaoké, par exemple). Ceci est un exemple classique montré dans le cours d'apprentissage automatique d'Andrew Ng, où vous séparez le son du haut-parleur de la musique de fond.

papier blanchttp://ijcert.org/ems/ijcert_papers/V3I1103.pdf

Un scénario d'utilisation typique implique:

  • chargement d'un fichier audio
  • calculer une transformée temps-fréquence pour obtenir un spectrogramme, Oui
  • en utilisant certains des algorithmes de séparation des polices (comme la factorisation matricielle non négative) obtenir un masque temps-fréquence

Ensuite, le masque est multiplié par le spectrogramme et le résultat est reconverti dans le domaine temporel.

Cas d'étudehttps://github.com/IoSR-Surrey/untwist

6. Suivi du temps

Comme le nom le suggère, le but ici est de suivre l'emplacement de chaque battement dans une collection de fichiers audio. Suivi du rythme peut être utilisé pour automatiser les tâches fastidieuses qui doivent être effectuées pour synchroniser les événements avec la musique. Il est utile dans diverses applications, comme montage vidéo, montage audio et improvisation entre humains et ordinateurs.

papier blanchttps://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

Une approche de dépannage du suivi des battements peut consister à analyser le fichier audio et à utiliser un algorithme de détection de démarrage pour tracer les battements.. Même si les techniques utilisées pour la détection de démarrage reposent fortement sur l'ingénierie des fonctions audio et l'apprentissage automatique, l'apprentissage en profondeur peut facilement être utilisé ici pour tirer le meilleur parti des résultats.

Cas d'étudehttps://github.com/adamstark/BTrack

7. Recommandation musicale

Grâce à Internet, maintenant nous avons des millions de chansons que nous pouvons écouter à tout moment. Ironiquement, Cela a rendu encore plus difficile la découverte de nouvelles musiques en raison du grand nombre d'alternatives qui existent.. Recommandation musicale Les systèmes aident à gérer cette surcharge d'informations en recommandant automatiquement de nouvelles musiques aux auditeurs. Les fournisseurs de contenu comme Spotify et Saavn ont développé des moteurs de recommandation musicale très sophistiqués. Ces modèles tirent parti de l'historique d'écoute passé de l'utilisateur, parmi de nombreuses autres fonctionnalités, pour créer des listes de recommandations personnalisées.

papier blanchttps://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

Nous pouvons relever le défi de la personnalisation des préférences d'écoute en entraînant un modèle de régression / l'apprentissage en profondeur. Cela peut être utilisé pour prédire les représentations latentes des chansons qui ont été obtenues à partir d'un modèle de filtrage collaboratif.. De cette manière, nous pourrions prédire la représentation d'une chanson dans l'espace de filtrage collaboratif, même si aucune donnée d'utilisation n'est disponible.

Cas d'étudehttp://benanne.github.io/2014/08/05/spotify-cnns.html

8. Récupération de musique

L'une des tâches les plus difficiles du traitement audio, Mrécupération usique vise essentiellement à créer un moteur de recherche audio. Même si nous pouvons le faire en résolvant des sous-tâches telles que l'empreinte audio, cette tâche englobe bien plus que cela. Par exemple, nous devons également résoudre différentes tâches plus petites pour différents types de récupération de musique (la détection de l'anneau serait idéale pour l'identification du genre). En ce moment, il n'y a pas d'autre système qui a été développé pour répondre aux normes de l'industrie attendues.

papier blanchttp://www.nowpublishers.com/article/Details/INR-042

La tâche de récupération de la musique est divisée en étapes plus petites et plus faciles, y compris l'analyse tonale (par exemple, mélodie et harmonie) et le rythme ou le tempo (par exemple, suivi du temps). Ensuite, sur la base de ces analyses individuelles, les informations sont extraites et utilisées pour récupérer des échantillons audio similaires.

Cas d'étudehttps://youtu.be/oGGVvTgHMHw

9. Transcription musicale

Transcription musicale est une autre tâche difficile de traitement audio. Il s'agit d'annoter l'audio et de créer une sorte de “feuille” pour générer de la musique à partir de celui-ci ultérieurement. L'effort manuel impliqué dans transcrire de la musique des enregistrements peut être énorme. Il varie beaucoup en fonction de la complexité du chanson, à quel point nos capacités d'écoute sont bonnes et à quel point nous voulons être détaillés transcription être.

papier blanchttp://ieeexplore.ieee.org/abstract/document/7955698

L'approche de la transcription musicale est équivalente à celle de l'accréditation vocale, où les notes de musique sont transcrites en extraits lyriques d'instruments.

Cas d'étudehttps://youtu.be/9boJ-Ai6QFM

10. Démarrer la détection

La détection de lancement est la première étape de l'analyse d'un flux audio / chanson. Pour la plupart des tâches mentionnées précédemment, il est nécessaire d'effectuer une détection de démarrage, En d'autres termes, détecter le début d'un événement audio. La détection de lancement était essentiellement la première tâche que les chercheurs ont essayé de résoudre dans le traitement audio..

papier blanchttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep = rep1&type=pdf

La détection de démarrage se fait généralement par:

  • calculer une fonction de nouveauté spectrale
  • trouver des pics dans la fonction de nouveauté spectrale
  • reculant de chaque pic jusqu'à un minimum local précédent. Le retour en arrière peut être utile pour trouver des points d'arrêt tels que le début se produit peu de temps après le début du segment.

Cas d'étudehttps://musicinformationretrieval.com/onset_detection.html

Remarques finales

Dans ce billet, J'ai mentionné certaines tâches qui peuvent être envisagées lors du dépannage du traitement audio. J'espère que vous trouverez cet article utile lorsque vous aborderez des projets liés à l'audio et à la parole.

Apprendre, engager , hacher et se faire embaucher!

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.