introduction
Imaginez un monde où les machines comprennent ce que vous voulez et ce que vous ressentez lorsque vous appelez le service client; si vous n'êtes pas satisfait de quelque chose, parler à une personne rapidement. Si vous recherchez des informations spécifiques, vous n'aurez peut-être pas besoin de parler à une personne (Sauf si vous voulez!).
Ce sera le nouvel ordre mondial; ya se puede ver que esto está sucediendo en buena mesureLa "mesure" C’est un concept fondamental dans diverses disciplines, qui fait référence au processus de quantification des caractéristiques ou des grandeurs d’objets, phénomènes ou situations. En mathématiques, Utilisé pour déterminer les longueurs, Surfaces et volumes, tandis qu’en sciences sociales, il peut faire référence à l’évaluation de variables qualitatives et quantitatives. La précision des mesures est cruciale pour obtenir des résultats fiables et valides dans toute recherche ou application pratique..... Voir les faits saillants de 2017 dans l'industrie de la science des données. Puede ver los avances que el l'apprentissage en profondeurL'apprentissage en profondeur, Une sous-discipline de l’intelligence artificielle, s’appuie sur des réseaux de neurones artificiels pour analyser et traiter de grands volumes de données. Cette technique permet aux machines d’apprendre des motifs et d’effectuer des tâches complexes, comme la reconnaissance vocale et la vision par ordinateur. Sa capacité à s’améliorer continuellement au fur et à mesure que de nouvelles données lui sont fournies en fait un outil clé dans diverses industries, de la santé... estaba aportando en un campo que antes era difícil de solucionar. L'un de ces domaines que l'apprentissage en profondeur a le potentiel d'aider à aborder est le traitement audio. / voix, surtout en raison de sa nature non structurée et de son grand impact.
Ensuite, pour les curieux, J'ai compilé une liste de choses à faire qu'il est important de noter pour se salir les mains lors du démarrage du traitement audio. Je suis sûr qu'il y aura d'autres avancées dans le futur en utilisant Deep Learning.
Le poste est structuré pour expliquer chaque tâche et sa pertinence. Il existe également un document de recherche qui comprend les détails de cette tâche spécifique., ainsi qu'une étude de cas qui vous aiderait à vous lancer dans la résolution de devoirs.
Alors commençons!
1. Classement audio
La classification audio est un obstacle fondamental dans le domaine du traitement audio. La tâche consiste essentiellement à extraire les caractéristiques de l'audio et à identifier par la suite à quelle classe appartient l'audio.. De nombreuses applications utiles associées à la classification audio peuvent être trouvées dans la nature, comme la classification par sexe, accréditation de l'instrument et identification de l'artiste.
Cette tâche est également le sujet le plus exploré en traitement audio.. De nombreux articles ont été publiés dans ce domaine au cours de la dernière année. En réalité, nous avons également accueilli un praticien du hackathon pour la collaboration de la communauté pour résoudre cette tâche particulière.
papier blanc – http://ieeexplore.ieee.org/document/5664796/?reload=true
Une approche courante pour résoudre une tâche de classification audio consiste à prétraiter les entrées audio pour extraire des caractéristiques utiles, puis à leur appliquer un algorithme de classification.. Par exemple, dans l'étude de cas ci-dessous, se nos da un extractoEl extracto es una sustancia obtenida mediante la concentración de compuestos de origen vegetal, animal o mineral. Se utiliza en diversas aplicaciones, como la industria alimentaria, farmacéutica y cosmética. Los extractos pueden presentarse en forma líquida, en polvo o como tinturas, y su producción implica técnicas como la maceración, la destilación o la extracción con solventes. Su uso permite aprovechar las propiedades beneficiosas de los ingredientes originales de manera más... de 5 secondes d'un son, et la tâche est d'identifier à quelle classe il appartient, soit un chien qui aboie, soit un son de forage. Comme mentionné dans le post, un enfoque para lidiar con esto es extraer una característica de audio llamada MFCC y posteriormente pasarla por medio de una neuronal rougeLes réseaux de neurones sont des modèles computationnels inspirés du fonctionnement du cerveau humain. Ils utilisent des structures appelées neurones artificiels pour traiter et apprendre des données. Ces réseaux sont fondamentaux dans le domaine de l’intelligence artificielle, permettant des avancées significatives dans des tâches telles que la reconnaissance d’images, Traitement du langage naturel et prédiction de séries temporelles, entre autres. Leur capacité à apprendre des motifs complexes en fait des outils puissants.. para obtener la clase apropiada.
Cas d'étude – https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
2. Empreintes audio
Le but de l'empreinte audio est de déterminer la “résumé” audio numérique. Ceci est fait pour identifier l'audio à partir d'un échantillon audio. Shazam est un excellent exemple d'application d'empreintes digitales audio. Reconnaît la musique en fonction des deux à cinq premières secondes d'une chanson. Malgré cela, il y a encore des situations où le système plante, surtout quand il y a beaucoup de bruit de fond.
papier blanc – http://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf
Pour résoudre ce problème, une approche pourrait être de représenter l'audio d'une manière différente, afin qu'il puisse être facilement déchiffré. Ensuite, nous pouvons découvrir les modèles qui différencient l'audio du bruit de fond. Dans l'étude de cas ci-dessous, l'auteur convertit l'audio brut en spectrogrammes, puis utilise des algorithmes de recherche de pointe et des hachages d'empreintes digitales pour établir les empreintes digitales de ce fichier audio.
Cas d'étude – http://willdrevo.com/fingerprinting-and-audio-recognition-with-python/
3. Marquage automatique de la musique
Marquage de la musique est une version plus complexe de la classification audio. Ici, on peut avoir plusieurs classes auxquelles chaque audio peut appartenir, également connu sous le nom de barrière de tri multi-tags. Une application réalisable de cette tâche peut être la création de métadonnées pour l'audio afin de pouvoir les rechercher plus tard.. L'apprentissage en profondeur a aidé à résoudre cette tâche dans une certaine mesure, ce qui peut être vu dans l'étude de cas ci-dessous.
papier blanc – https://link.springer.com/article/10.1007/s10462-012-9362-y
Comme vu avec la plupart des tâches, la première étape consiste toujours à extraire les caractéristiques de l'échantillon audio. Ensuite, ordre selon les nuances de l'audio (par exemple, si l'audio contient plus de bruit instrumental que la voix du chanteur, l'étiquette pourrait être “instrumental”). Cela peut être fait grâce à des méthodes d'apprentissage automatique ou d'apprentissage en profondeur.. L'étude de cas mentionnée ci-dessous utilise l'apprentissage en profondeur pour résoudre le problème, específicamente la récurrence neuronale rougeRéseaux de neurones récurrents (RNN) sont un type d’architecture de réseau neuronal conçu pour traiter des flux de données. Contrairement aux réseaux de neurones traditionnels, Les RNN utilisent des connexions internes qui permettent de mémoriser les informations des entrées précédentes. Cela les rend particulièrement utiles dans des tâches telles que le traitement du langage naturel, Traduction automatique et analyse de séries chronologiques, où le contexte et la séquence sont au cœur de la... de convolución junto con la extracción de frecuencia Mel.
Cas d'étude – https://github.com/keunwoochoi/music-auto_tagging-keras
4. Segmentation audio
La segmentationLa segmentation est une technique de marketing clé qui consiste à diviser un large marché en groupes plus petits et plus homogènes. Cette pratique permet aux entreprises d’adapter leurs stratégies et leurs messages aux spécificités de chaque segment, améliorant ainsi l’efficacité de vos campagnes. Le ciblage peut se faire sur des critères démographiques, Psychographique, géographique ou comportementale, Faciliter une communication plus pertinente et personnalisée avec le public cible.... significa literalmente dividir un objeto en particular en partes (les segments) selon un ensemble défini de caractéristiques. Segmentation, en particulier pour l'analyse des données audio, est une étape de pré-traitement importante. En effet, nous pouvons segmenter un signal audio long et bruyant en segments courts et homogènes. (courtes séquences audio pratiques) qui sont utilisés pour un traitement ultérieur. Une application de la tâche est la segmentation des sons cardiaques, En d'autres termes, identifier des bruits cardiaques spécifiques.
papier blanc – http://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf
Podemos convertir esto en un obstáculo de enseignement superviséL’apprentissage supervisé est une approche d’apprentissage automatique dans laquelle un modèle est formé à l’aide d’un ensemble de données étiquetées. Chaque entrée du jeu de données est associée à une sortie connue, permettre au modèle d’apprendre à prédire les résultats pour de nouvelles entrées. Cette méthode est largement utilisée dans des applications telles que la classification d’images, Reconnaissance vocale et prédiction de tendances, soulignant son importance dans..., où chaque horodatage peut être classé en fonction des segments requis. Ensuite, nous pouvons appliquer une approche de classification audio pour résoudre le problème. Dans l'étude de cas ci-dessous, la tâche consiste à segmenter le son du cœur en deux segments (ou y dub), afin que nous puissions identifier une anomalie dans chaque segment. Il peut être résolu grâce à l'extraction de caractéristiques audio et un apprentissage approfondi ultérieur peut être appliqué pour la classification.
Cas d'étude – https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/
5. Séparation des sources audio
Séparation des sources audio il s'agit d'isoler un ou plusieurs signaux source d'un mélange de signaux. L'une des applications les plus courantes est identifier la lettre de l'audio pour la traduction simultanée (karaoké, par exemple). Ceci est un exemple classique montré dans le cours d'apprentissage automatique d'Andrew Ng, où vous séparez le son du haut-parleur de la musique de fond.
papier blanc – http://ijcert.org/ems/ijcert_papers/V3I1103.pdf
Un scénario d'utilisation typique implique:
- chargement d'un fichier audio
- calculer une transformée temps-fréquence pour obtenir un spectrogramme, Oui
- en utilisant certains des algorithmes de séparation des polices (comme la factorisation matricielle non négative) obtenir un masque temps-fréquence
Ensuite, le masque est multiplié par le spectrogramme et le résultat est reconverti dans le domaine temporel.
Cas d'étude – https://github.com/IoSR-Surrey/untwist
6. Suivi du temps
Comme le nom le suggère, le but ici est de suivre l'emplacement de chaque battement dans une collection de fichiers audio. Suivi du rythme peut être utilisé pour automatiser les tâches fastidieuses qui doivent être effectuées pour synchroniser les événements avec la musique. Il est utile dans diverses applications, comme montage vidéo, montage audio et improvisation entre humains et ordinateurs.
Une approche de dépannage du suivi des battements peut consister à analyser le fichier audio et à utiliser un algorithme de détection de démarrage pour tracer les battements.. Même si les techniques utilisées pour la détection de démarrage reposent fortement sur l'ingénierie des fonctions audio et l'apprentissage automatique, l'apprentissage en profondeur peut facilement être utilisé ici pour tirer le meilleur parti des résultats.
Cas d'étude – https://github.com/adamstark/BTrack
7. Recommandation musicale
Grâce à Internet, maintenant nous avons des millions de chansons que nous pouvons écouter à tout moment. Ironiquement, Cela a rendu encore plus difficile la découverte de nouvelles musiques en raison du grand nombre d'alternatives qui existent.. Recommandation musicale Les systèmes aident à gérer cette surcharge d'informations en recommandant automatiquement de nouvelles musiques aux auditeurs. Les fournisseurs de contenu comme Spotify et Saavn ont développé des moteurs de recommandation musicale très sophistiqués. Ces modèles tirent parti de l'historique d'écoute passé de l'utilisateur, parmi de nombreuses autres fonctionnalités, pour créer des listes de recommandations personnalisées.
papier blanc – https://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf
Nous pouvons relever le défi de la personnalisation des préférences d'écoute en entraînant un modèle de régression / l'apprentissage en profondeur. Cela peut être utilisé pour prédire les représentations latentes des chansons qui ont été obtenues à partir d'un modèle de filtrage collaboratif.. De cette manière, nous pourrions prédire la représentation d'une chanson dans l'espace de filtrage collaboratif, même si aucune donnée d'utilisation n'est disponible.
Cas d'étude – http://benanne.github.io/2014/08/05/spotify-cnns.html
8. Récupération de musique
L'une des tâches les plus difficiles du traitement audio, Mrécupération usique vise essentiellement à créer un moteur de recherche audio. Même si nous pouvons le faire en résolvant des sous-tâches telles que l'empreinte audio, cette tâche englobe bien plus que cela. Par exemple, nous devons également résoudre différentes tâches plus petites pour différents types de récupération de musique (la détection de l'anneau serait idéale pour l'identification du genre). En ce moment, il n'y a pas d'autre système qui a été développé pour répondre aux normes de l'industrie attendues.
papier blanc – http://www.nowpublishers.com/article/Details/INR-042
La tâche de récupération de la musique est divisée en étapes plus petites et plus faciles, y compris l'analyse tonale (par exemple, mélodie et harmonie) et le rythme ou le tempo (par exemple, suivi du temps). Ensuite, sur la base de ces analyses individuelles, les informations sont extraites et utilisées pour récupérer des échantillons audio similaires.
Cas d'étude – https://youtu.be/oGGVvTgHMHw
9. Transcription musicale
Transcription musicale est une autre tâche difficile de traitement audio. Il s'agit d'annoter l'audio et de créer une sorte de “feuille” pour générer de la musique à partir de celui-ci ultérieurement. L'effort manuel impliqué dans transcrire de la musique des enregistrements peut être énorme. Il varie beaucoup en fonction de la complexité du chanson, à quel point nos capacités d'écoute sont bonnes et à quel point nous voulons être détaillés transcription être.
papier blanc – http://ieeexplore.ieee.org/abstract/document/7955698
L'approche de la transcription musicale est équivalente à celle de l'accréditation vocale, où les notes de musique sont transcrites en extraits lyriques d'instruments.
Cas d'étude – https://youtu.be/9boJ-Ai6QFM
10. Démarrer la détection
La détection de lancement est la première étape de l'analyse d'un flux audio / chanson. Pour la plupart des tâches mentionnées précédemment, il est nécessaire d'effectuer une détection de démarrage, En d'autres termes, détecter le début d'un événement audio. La détection de lancement était essentiellement la première tâche que les chercheurs ont essayé de résoudre dans le traitement audio..
papier blanc – http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep = rep1&type=pdf
La détection de démarrage se fait généralement par:
- calculer une fonction de nouveauté spectrale
- trouver des pics dans la fonction de nouveauté spectrale
- reculant de chaque pic jusqu'à un minimum local précédent. Le retour en arrière peut être utile pour trouver des points d'arrêt tels que le début se produit peu de temps après le début du segment.
Cas d'étude – https://musicinformationretrieval.com/onset_detection.html
Remarques finales
Dans ce billet, J'ai mentionné certaines tâches qui peuvent être envisagées lors du dépannage du traitement audio. J'espère que vous trouverez cet article utile lorsque vous aborderez des projets liés à l'audio et à la parole.
Apprendre, engager , hacher et se faire embaucher!
En rapport
Articles Similaires:
- Données audio | Analyse des données audio / voix grâce à l'apprentissage en profondeur
- Éditeur audio en ligne, ou comment couper, fusible, appliquer des effets, etc.a fichiers audio gratuitement
- L'apprentissage en profondeur | Apprentissage profond en Python
- Qu'est-ce que l'apprentissage en profondeur? Tutoriel d'apprentissage en profondeur