Audiobearbeitungsprojekte | Deep Learning Audioverarbeitung

Inhalt

Einführung

Stellen Sie sich eine Welt vor, in der Maschinen verstehen, was Sie wollen und wie Sie sich fühlen, wenn Sie den Kundendienst anrufen; wenn du mit etwas nicht zufrieden bist, schnell mit einer Person sprechen. Wenn Sie nach bestimmten Informationen suchen, Sie müssen möglicherweise nicht mit einer Person sprechen (Außer du willst!).

Das wird die neue Weltordnung; man sieht schon, dass dies zu einem großen Teil passiert. Sehen Sie die Highlights von 2017 in der Data-Science-Branche. Sie können die Fortschritte sehen, die Deep Learning in einem Bereich mit sich brachte, der zuvor schwer zu lösen war. Einer der Bereiche, bei denen Deep Learning das Potenzial hat, zu helfen, ist die Audioverarbeitung. / Stimme, vor allem durch seine unstrukturierte Natur und große Wirkung.

Dann, für neugierige, Ich habe eine To-Do-Liste zusammengestellt, die es zu beachten gilt, dass Sie sich die Hände schmutzig machen, wenn Sie mit der Audioverarbeitung beginnen. Ich bin mir sicher, dass es in Zukunft noch einige Fortschritte mit Deep Learning geben wird.

Der Beitrag ist strukturiert, um jede Aufgabe und ihre Relevanz zu erklären. Es gibt auch ein Forschungsdokument, das die Details dieser speziellen Aufgabe enthält., zusammen mit einer Fallstudie, die Ihnen den Einstieg in das Lösen von Hausaufgaben erleichtern würde.

So lass uns anfangen!

1. Audioklassifizierung

Audioklassifizierung ist eine grundlegende Hürde im Bereich der Audioverarbeitung. Die Aufgabe besteht im Wesentlichen darin, Merkmale aus dem Audio zu extrahieren und anschließend zu identifizieren, zu welcher Klasse das Audio gehört.. Viele nützliche Anwendungen im Zusammenhang mit der Audioklassifizierung finden sich in der Natur, wie zum Beispiel Geschlechterklassifizierung, Instrumentenakkreditierung und Künstleridentifikation.

Diese Aufgabe ist auch das am meisten erforschte Thema in der Audioverarbeitung.. In diesem Bereich wurden im letzten Jahr viele Beiträge veröffentlicht. In Wirklichkeit, wir haben auch gehostet Hackathon-Praktiker für die Zusammenarbeit mit der Gemeinschaft, um diese spezielle Aufgabe zu lösen.

weißes Papierhttp://ieeexplore.ieee.org/document/5664796/?reload=true

Ein üblicher Ansatz zum Lösen einer Audioklassifizierungsaufgabe besteht darin, die Audioeingaben vorzuverarbeiten, um nützliche Eigenschaften zu extrahieren und dann einen Klassifizierungsalgorithmus darauf anzuwenden.. Als Beispiel, in der folgenden Fallstudie, wenn uns ein Auszug von gegeben wird 5 Sekunden eines Tons, und die Aufgabe besteht darin, zu identifizieren, zu welcher Klasse es gehört, entweder ein bellender Hund oder ein bohrendes Geräusch. Wie im Beitrag erwähnt, Ein Ansatz, um damit umzugehen, besteht darin, ein Audio-Feature namens MFCC zu extrahieren und es dann durch ein neuronales Netzwerk zu leiten, um die entsprechende Klasse zu erhalten.

Fallstudie – https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

2. Audio-Fingerabdrücke

Ziel des Audio-Fingerprintings ist es, die “abstrakt” Audio digital. Dies geschieht, um das Audio aus einem Audiobeispiel zu identifizieren. Shazam ist ein hervorragendes Beispiel für eine Audio-Fingerabdruck-App. Erkennt Musik anhand der ersten zwei bis fünf Sekunden eines Songs. Trotz dieses, es gibt immer noch Situationen, in denen das System abstürzt, vor allem bei vielen Hintergrundgeräuschen.

weißes Papierhttp://www.cs.toronto.edu/~dross/ChandrasekharSharifiRoss_ISMIR2011.pdf

Um dieses Problem zu lösen, Ein Ansatz könnte darin bestehen, das Audio auf eine andere Weise darzustellen, damit es leicht zu entziffern ist. Anschließend, Wir können die Muster entdecken, die Audio von Hintergrundgeräuschen unterscheiden. In der folgenden Fallstudie, Der Autor wandelt Rohaudio in Spektrogramme um und verwendet dann Peak-Suchalgorithmen und Fingerabdruck-Hashes, um die Fingerabdrücke dieser Audiodatei zu ermitteln.

Fallstudiehttp://willdrevo.com/fingerprinting-and-audio-recognition-with-python/

3. Automatisches Musik-Tagging

Musik-Tagging ist eine komplexere Version der Audioklassifikation. Hier, wir können mehrere Klassen haben, zu denen jedes Audio gehören kann, auch bekannt als Multi-Tag-Sortierhürde. Eine denkbare Anwendung dieser Aufgabe kann die Erstellung von Metadaten für das Audio sein, um diese später durchsuchen zu können.. Deep Learning hat teilweise geholfen, diese Aufgabe zu lösen, was in der folgenden Fallstudie zu sehen ist.

weißes Papierhttps://link.springer.com/article/10.1007/s10462-012-9362-y

Wie bei den meisten Aufgaben gesehen, Der erste Schritt besteht immer darin, Merkmale aus dem Hörbeispiel zu extrahieren. Anschließend, nach den Nuancen des Audios sortieren (als Beispiel, wenn das Audio mehr Instrumentalgeräusche enthält als die Stimme des Sängers, das etikett könnte sein “instrumental”). Dies kann durch maschinelles Lernen oder Deep-Learning-Methoden erfolgen.. Die unten erwähnte Fallstudie verwendet Deep Learning, um das Problem zu lösen, speziell das rekurrente neuronale Faltungsnetzwerk in Verbindung mit der Frequenzextraktion Mel.

Fallstudiehttps://github.com/keunwoochoi/music-auto_tagging-keras

4. Audiosegmentierung

Segmentierung bedeutet wörtlich das Aufteilen eines bestimmten Objekts in Teile (die Segmente) nach einem definierten Merkmalssatz. Segmentierung, speziell für Audiodatenanalyse, ist ein wichtiger Vorverarbeitungsschritt. Dies liegt daran, dass wir ein langes, verrauschtes Audiosignal in kurze, homogene Segmente unterteilen können. (praktische kurze Audiosequenzen) die zur Weiterverarbeitung verwendet werden. Eine Anwendung der Aufgabe ist die Segmentierung von Herztönen, Mit anderen Worten, bestimmte Herztöne identifizieren.

weißes Papierhttp://www.mecs-press.org/ijitcs/ijitcs-v6-n11/IJITCS-V6-N11-1.pdf

Wir können dies in ein überwachtes Lernhindernis verwandeln, wobei jeder Zeitstempel basierend auf den erforderlichen Segmenten kategorisiert werden kann. Anschließend, Wir können einen Audioklassifizierungsansatz anwenden, um das Problem zu beheben. In der folgenden Fallstudie, Die Aufgabe besteht darin, den Herzton in zwei Segmente zu unterteilen (oder y dub), damit wir in jedem Segment eine Anomalie erkennen können. Es kann durch die Extraktion von Audiomerkmalen gelöst werden und später kann Deep Learning zur Klassifizierung angewendet werden.

Fallstudie – https://www.analyticsvidhya.com/blog/2017/11/heart-sound-segmentation-deep-learning/

5. Audioquellentrennung

Audioquellentrennung es beinhaltet das Isolieren eines oder mehrerer Quellsignale aus einer Mischung von Signalen. Eine der häufigsten Anwendungen dafür ist identifiziere den Buchstaben des Audios für Simultanübersetzung (Karaoke, als Beispiel). Dies ist ein klassisches Beispiel aus dem Kurs für maschinelles Lernen von Andrew Ng, wo Sie den Lautsprecherton von der Hintergrundmusik trennen.

weißes Papierhttp://ijcert.org/ems/ijcert_papers/V3I1103.pdf

Ein typisches Nutzungsszenario beinhaltet:

  • Laden einer Audiodatei
  • Berechnen Sie eine Zeit-Frequenz-Transformation, um ein Spektrogramm zu erhalten, Ja
  • mit einigen der Schrifttrennungsalgorithmen (wie nicht negative Matrixfaktorisierung) um eine Zeit-Frequenz-Maske zu erhalten

Anschließend, die Maske wird mit dem Spektrogramm multipliziert und das Ergebnis zurück in den Zeitbereich konvertiert.

Fallstudiehttps://github.com/IoSR-Surrey/untwist

6. Zeiterfassung

Wie der Name schon sagt, Das Ziel hier ist es, die Position jedes Beats in einer Sammlung von Audiodateien zu verfolgen. Rhythmus-Tracking kann verwendet werden, um zeitaufwändige Aufgaben zu automatisieren, die erledigt werden müssen, um Ereignisse mit Musik zu synchronisieren. Es ist in verschiedenen Anwendungen nützlich, als Videobearbeitung, Audiobearbeitung und Improvisation zwischen Mensch und Computer.

weißes Papierhttps://www.audiolabs-erlangen.de/content/05-fau/professor/00-mueller/01-students/2012_GroschePeter_MusicSignalProcessing_PhD-Thesis.pdf

Ein Ansatz zur Fehlerbehebung bei der Beatverfolgung kann darin bestehen, die Audiodatei zu analysieren und einen Starterkennungsalgorithmus zu verwenden, um die Beats zu verfolgen.. Auch wenn die zur Starterkennung verwendeten Techniken stark auf Audiofunktionstechnik und maschinelles Lernen angewiesen sind, Deep Learning kann hier einfach eingesetzt werden, um das Beste aus den Ergebnissen herauszuholen.

Fallstudiehttps://github.com/adamstark/BTrack

7. Musikalische Empfehlung

Dank des Internets, Jetzt haben wir Millionen von Songs, die wir uns jederzeit anhören können. Ironisch, Dies hat es aufgrund der Vielzahl an Alternativen noch schwieriger gemacht, neue Musik zu entdecken.. Musikalische Empfehlung Systeme helfen bei der Bewältigung dieser Informationsflut, indem sie den Hörern automatisch neue Musik empfehlen. Inhaltsanbieter wie Spotify und Saavn haben hochentwickelte Engines für Musikempfehlungen entwickelt. Diese Modelle nutzen die bisherige Hörhistorie des Benutzers, unter vielen anderen Funktionen, um benutzerdefinierte Empfehlungslisten zu erstellen.

weißes Papierhttps://pdfs.semanticscholar.org/7442/c1ebd6c9ceafa8979f683c5b1584d659b728.pdf

Wir können die Herausforderung der Anpassung der Hörpräferenzen durch das Trainieren eines Regressionsmodells angehen / tiefes Lernen. Dies kann verwendet werden, um die latenten Repräsentationen von Liedern vorherzusagen, die von einem kollaborativen Filtermodell erhalten wurden.. Diesen Weg, wir könnten die Darstellung eines Songs im kollaborativen Filterraum vorhersagen, auch wenn keine Nutzungsdaten vorhanden sind.

Fallstudiehttp://benanne.github.io/2014/08/05/spotify-cnns.html

8. Musikwiederherstellung

Eine der schwierigsten Aufgaben in der Audioverarbeitung, music wiederherstellung zielt im Wesentlichen darauf ab, eine audiobasierte Suchmaschine aufzubauen. Obwohl wir dies tun können, indem wir Teilaufgaben wie das Audio-Fingerprinting lösen, diese Aufgabe umfasst noch viel mehr. Als Beispiel, wir müssen auch verschiedene kleinere Aufgaben für verschiedene Arten der Musikwiederherstellung lösen (Ringerkennung wäre toll für die Geschlechtsidentifikation). Im Augenblick, Es gibt kein anderes System, das entwickelt wurde, um die erwarteten Industriestandards zu erfüllen.

weißes Papierhttp://www.nowpublishers.com/article/Details/INR-042

Das Wiederherstellen von Musik ist in kleinere und einfachere Schritte unterteilt, inklusive Tonanalyse (als Beispiel, Melodie und Harmonie) und der Rhythmus oder das Tempo (als Beispiel, Zeiterfassung). Anschließend, basierend auf diesen individuellen Analysen, Informationen werden extrahiert und verwendet, um ähnliche Audiobeispiele abzurufen.

Fallstudiehttps://youtu.be/oGGVvTgHMHw

9. Musiktranskription

Musiktranskription ist eine weitere anspruchsvolle Audioverarbeitungsaufgabe. Es geht darum, Audio zu kommentieren und eine Art “Blatt” daraus später Musik machen. Der damit verbundene manuelle Aufwand Musik transkribieren der Aufnahmen können riesig sein. Es variiert stark je nach Komplexität der Lied, wie gut unser Zuhören ist und wie detailliert wir wollen Transkription sein.

weißes Papierhttp://ieeexplore.ieee.org/abstract/document/7955698

Der Ansatz bei der Musiktranskription entspricht dem der Stimmakkreditierung, wo Musiknoten in lyrische Auszüge von Instrumenten transkribiert werden.

Fallstudiehttps://youtu.be/9boJ-Ai6QFM

10. Erkennung starten

Die Starterkennung ist der erste Schritt bei der Analyse eines Audiostreams / Lied. Für die meisten der zuvor genannten Aufgaben, es ist notwendig, eine Starterkennung durchzuführen, Mit anderen Worten, den Beginn eines Audioereignisses erkennen. Die Abschusserkennung war im Wesentlichen die erste Aufgabe, die die Forscher bei der Audioverarbeitung zu lösen versuchten..

weißes Papierhttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.332.989&rep = rep1&Typ=pdf

Die Starterkennung erfolgt in der Regel durch:

  • Berechnen einer spektralen Neuheitsfunktion
  • Peaks in der spektralen Neuheitsfunktion finden
  • Rückzug von jedem Peak zu einem vorhergehenden lokalen Minimum. Backtracking kann hilfreich sein, um Breakpoints zu finden, so dass der Beginn kurz nach dem Start des Segments auftritt.

Fallstudiehttps://musicinformationretrieval.com/onset_detection.html

Abschließende Anmerkungen

In diesem Beitrag, Ich habe einige Aufgaben erwähnt, die bei der Fehlerbehebung bei der Audioverarbeitung berücksichtigt werden können. Ich hoffe, Sie finden den Beitrag nützlich, wenn Sie Projekte im Zusammenhang mit Audio und Sprache angehen.

Lernen, anheuern , hacken und angestellt werden!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.