Die wichtigsten Konzepte für die Untersuchung Ihres Datensatzes

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

"Komm nicht ins Modeln. Zuerst, Verstehen und erkunden Sie Ihre Daten! “

Auf

Dies ist ein allgemeiner Rat für viele Datenwissenschaftler. Wenn Ihr Datensatz unordentlich ist, Modellbau wird dir nicht helfen dein Problem zu lösen. Was passieren wird ist “Müll drin, Müll draußen”. So erstellen Sie einen leistungsstarken Algorithmus für maschinelles Lernen. Wir müssen unseren Datensatz untersuchen und verstehen, bevor wir eine Vorhersageaufgabe definieren und lösen können.

Einführung

vor dem Fortfahren, Datenwissenschaftler verbringen die meiste Zeit damit, zu erforschen, Bereinigen und Vorbereiten Ihrer Daten für die Modellierung. Dies hilft ihnen, genaue Modelle zu erstellen und die Annahmen zu überprüfen, die für die Anpassung der Modelle erforderlich sind..

Erstellen Sie aussagekräftige Datenvisualisierungen, Vorhersagen zukünftiger Trends aus Daten.

Wenn Sie die Datenaufbereitung gut verstehen können, fast fertig 80% von der Arbeit.

Inhaltsverzeichnis

  • Stellen Sie die richtigen Fragen?
  • Analysieren Sie verschiedene Teilmengen von Daten
  • Entdecken Sie die Trends
  • FFinde deine blinden Flecken
  • Untersuche das Warum

Stelle die richtigen Fragen

Ob Umfrageergebnisse, Verkaufsdaten oder eine E-Mail-Kampagne, Sie haben Daten für einen bestimmten Zweck gesammelt. Durch Erweiterung, Wenden Sie diesen Zweck auf die Fragen an, die Sie zu den Daten selbst stellen. Wenn Sie mit ein paar spezifischen Fragen beginnen, können Sie Ihre Untersuchung fokussieren und den Wald durch die Bäume sehen.. Eine Frage wie “Wie ist mein Einkommen während der letzten 3 Jahre?” Es ist vage und ermöglicht Erkundungen, aber auch die verwirrung.

jedoch, Etwas wie “Welcher Kanal generiert in letzter Zeit mehr Einnahmen 3 Jahre” hat eine klarere antwort. Folgefragen können sein: “Welche Abteilung generiert den meisten Umsatz pro Jahr” Ö “Der Verkauf von Kletterausrüstung ist dieses Jahr gestiegen oder gesunken?” Es ist wichtig, beim Beginn der Datenanalyse eine bestimmte Frage im Hinterkopf zu behalten, um eine gewisse Struktur zu schaffen und zu vermeiden, über falsch positive Ergebnisse zu stolpern.

66598ein-7540058

Analysieren Sie verschiedene Teilmengen von Daten:

Es ist einfacher, Beziehungen zu erkennen, wenn Sie Daten aus verschiedenen Teilmengen analysieren. Zum Beispiel, Segmentieren Sie Ihre Umsatzdaten nach Kanal wie in der obigen Tabelle, oder nach Abteilung. Experimentieren Sie mit den Teilmengen und Variablen, die für die im vorherigen Schritt entwickelten Fragen am sinnvollsten sind..

Dieses Layout konzentriert sich darauf, Ihnen zu ermöglichen, in Ihrem Gedankengang zu bleiben und reibungslos von einer Frage zur anderen überzugehen., ohne über das Format oder die Gleichungen zu stolpern. Es kann auch nützlich sein, eine so genannte Pivot-Tabelle in Excel zu verwenden. In unserem Beispiel eines Outdoor-Ausrüstungshändlers, Sie können von einer vierteljährlichen Ansicht zum Umsatz für ein Quartal des Jahres wechseln, indem Sie einfach aus einem Dropdown-Menü auswählen. Die folgende Grafik ist ein aggregierter Umsatz für jedes Quartal zwischen 2010 Ja 2013.

74333zwei-7673471

Entdecken Sie die Trends

Experimentieren Sie mit Ihren Zeitvariablen. Schau dir das Quartal an, der Monat oder die Woche, was auch immer Sinn macht basierend auf dem was du suchst. Manchmal, was fehlt ist auch so wichtig wie was da ist. Wenn Ihre Datenanalyse Lücken aufweist, beachten. Es kann hilfreich sein, während der Analyse Notizen zu machen., Erinnerungen daran, was Sie später recherchieren oder mit Kollegen besprechen möchten.

Werfen Sie einen Blick auf diese vierteljährliche Umsatzanalyse der Abteilung. Es ist nicht sehr nützlich, da es schwierig ist, Trends zu erkennen.

69209drei-9997805

Dieses jährliche Liniendiagramm macht es viel einfacher zu erkennen, dass Klettern die am schnellsten wachsende Abteilung ist und dass die Laufverkäufe in den letzten drei Jahren zurückgegangen sind..

63951vier-8815038

Finde deine blinden Flecken

  • Wurde wirklich gesammelt
    für die Aufgabe, die Sie erledigen sollen. Und Sie werden gebeten, das zu tun
    die Daten validieren ein bereits entschiedenes Ergebnis.
  • Die meisten Organisationen denken nicht wissenschaftlich. Sie erstellen keine Hypothesen und entscheiden dann, welche Daten sie sammeln müssen, um sie zu validieren. Sie wählen ein Ergebnis aus und passen dann die Daten an.
  • Häufig, die Daten stammen von etwas ganz anderem, oft als Nebenprodukt eines kommerziellen Prozesses. Also hat jemand die geniale Idee “Wir könnten das zum Arbeiten gebrauchen”
  • Durch die Analyse der folgenden Grafik, Grafik veranschaulicht Informationen über blinde Flecken in einem Datensatz. Versteckte Daten sind einer der Nachteile, um eine Lösung zu erhalten. Allgemein, Ausreißer zu finden wird eine Lösung sein.

  • Ausreißerkorrektur basierend auf dem R-Parameter. Die Grafik links zeigt die Originaldaten mit erkannten Ausreißern. Das mittlere Diagramm verwendet einen Rauschwert von Null, um die Position von Ausreißern im linearen Modell zu platzieren oder zu korrigieren. Die rechte Grafik platziert den Ausreißer in der Nähe des linearen Modells in einer Entfernung basierend auf einem positiven Wert für R (R = 0.5).
  • 87583sechs-4177881

Untersuche das Warum:

69565fünf-5701755

Die Datenanalyse ist ein fortlaufender Prozess und der beste Weg, um sie anzugehen, ist zu versuchen, immer weniger Fehler zu machen. Sie werden wahrscheinlich nie alle Daten haben, die Sie wollen oder brauchen, um alle Fragen zu Ihrem Unternehmen zu beantworten., aber zumindest kannst du dich zu mehr Antworten und besseren Entscheidungen bewegen. Diese Feedbackschleife geht weiter (Fragen, analysieren, untersuchen, wiederholen) Es kann sich verbessern, aber es wird nie perfekt.

Abschließende Anmerkungen

Das Verstehen und Interpretieren von Daten ist ein sehr wichtiger Schritt beim maschinellen Lernen. In diesem Blogbeitrag, Wir versuchen, einen Überblick über Techniken zu geben, die Ihnen helfen können, Ihre Daten besser zu verstehen

Je nach Größe, Dimension und Art Ihrer Daten, Sie können den Algorithmus wählen. Zum Beispiel, wenn Sie große Rohdaten haben, anstelle von Stichproben können Sie repräsentative Beispiele verwenden. Wenn Sie einen großen Datensatz haben, Sie können auch die wichtigen Abmessungen finden, um repräsentative Muster zu verstehen.

Verschiedene Techniken können Ihnen unterschiedliche Einblicke in Ihre Daten geben. Es ist Ihre Aufgabe, als Detektiv die Werkzeuge zu verwenden, um das Rätsel zu lösen..

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.