Was ist Datenvisualisierung? Techniken zur Datenvisualisierung

Inhalt

Dieser Beitrag wurde im Rahmen der . veröffentlicht Data Science Blogathon

Einführung

In angewandter Statistik und maschinellem Lernen, Datenvisualisierung ist eine der wichtigsten Fähigkeiten.

Die Datenvisualisierung bietet einen wichtigen Satz von Werkzeugen, um ein qualitatives Verständnis zu identifizieren. Dies kann nützlich sein, wenn wir versuchen, das Dataset zu untersuchen und Informationen zu extrahieren, um ein Dataset zu kennen und dabei helfen zu können Mustererkennung, beschädigte Daten, Atypische Werte, und vieles mehr.

Wenn wir ein wenig Wissen über die Domäne haben, Datenvisualisierungen können verwendet werden, um wichtige Beziehungen in Diagrammen und Grafiken auszudrücken und zu identifizieren, die für Sie und Ihre Stakeholder nützlicher sind als Assoziations- oder Relevanzmaße.

In diesem Beitrag, wir werden einige von ihnen besprechen Grundgrafik Ö Raten die Sie verwenden können, um Ihre Daten besser zu verstehen und zu visualisieren.

Inhaltsverzeichnis

1. Was ist Datenvisualisierung?

2. Vorteile einer guten Datenvisualisierung

3. Verschiedene Analysearten zur Datenvisualisierung

4. Univariate Analysetechniken zur Datenvisualisierung

  • Verteilungsdiagramm
  • Box-und-Whisker-Plot
  • Violinrahmen

5. Bivariate Analysetechniken zur Datenvisualisierung

  • Liniendiagramm
  • Balkengrafik
  • Streudiagramm

Was ist Datenvisualisierung?

Die Datenanzeige ist eingestellt als Grafische Darstellung die enthalten Information und das Daten.

Verwenden von visuellen Elementen wie Grafik, Grafik, Ja Karten, Datenvisualisierungstechniken bieten eine erreichbare Möglichkeit zur Anzeige und Trends verstehen, Ausreißer und Muster in den Daten.

Heutzutage, Wir haben viele Daten in unseren Händen, Mit anderen Worten, in der Welt von Big Data, Tools und Technologien zur Datenvisualisierung sind von entscheidender Bedeutung, um riesige Informationsmengen zu analysieren und datengestützte Entscheidungen zu treffen.

Es wird in vielen Bereichen verwendet, wie z:

  • Zum Modellieren komplexe Ereignisse.
  • Visualisiere Phänomene, die nicht direkt beobachtet werden können, Was Wetterlagen, Krankheiten, Ö mathematische Beziehungen.

Vorteile einer guten Datenvisualisierung

Da unsere Augen die Farben und Muster erfassen können, deshalb, Wir können den roten Teil des Blaus schnell erkennen, das Quadrat des Kreises, unsere kultur ist visuell, das beinhaltet alles, von Kunst und Werbung bis hin zu Fernsehen und Filmen.

Dann, Datenvisualisierung ist eine weitere visuelle Kunsttechnik, die unser Interesse weckt und unseren Hauptfokus auf die mit Hilfe der Augen erfasste Botschaft richtet..

Immer wenn wir einen Graphen visualisieren, Wir identifizieren schnell Trends und Ausreißer im Datensatz.

Die grundlegenden Anwendungen der Datenvisualisierungstechnik sind wie folgt:

  • Es ist eine leistungsstarke Technik zum Erkunden von Daten mit vorzeigbar Ja interpretierbar Ergebnisse.
  • Im Data-Mining-Verfahren, fungiert als Hauptschritt im Vorverarbeitungsteil.
  • Es ist kompatibel mit Datenbereinigungsverfahren Fehlerhafte Daten und fehlende oder beschädigte Werte finden.
  • Es hilft auch konstruiere und wähle Variablen, was bedeutet, dass wir bestimmen müssen, welche Variable in die Analyse aufgenommen und verworfen werden soll.
  • Im Verfahren von Datenverlust, es spielt auch eine entscheidende Rolle bei der Kombination der Kategorien.

Datenvisualisierung

Bildquelle: Google Bilder

Verschiedene Analysearten zur Datenvisualisierung

Hauptsächlich, Es gibt drei verschiedene Arten der Analyse zur Datenvisualisierung:

Univariate Analyse: In der univariaten Analyse, Wir werden ein einziges Feature verwenden, um fast alle seine Eigenschaften zu analysieren.

Bivariate Analyse: Wenn wir die Daten zwischen genau 2 Merkmale, bekannt als bivariate Analyse.

Analyse multivariabel: In der multivariaten Analyse, Wille mehr vergleichen als 2 Variablen.

HINWEIS:

In diesem Beitrag, Unser Hauptziel ist es, die folgenden Konzepte zu verstehen:

  • So finden Sie einige Schlussfolgerungen aus Datenvisualisierungstechniken?
  • In welchem ​​Zustand, welche technik ist nützlicher als andere?

Wir werden uns nicht mit dem Coding-Teil befassen / Implementierung verschiedener Techniken in einem bestimmten Datensatz, aber wir versuchen die Lösung der vorherigen Fragen zu finden und verstehen nur den Code des Snippets mit Hilfe von Beispieldiagrammen für jede der Datenvisualisierungstechniken. .

Jetzt, Beginnen wir mit den verschiedenen Datenvisualisierungstechniken:

Univariate Analysetechniken zur Datenvisualisierung

1. Verteilungsdiagramm

  • Es ist eines der besten univariaten Diagramme, um die Verteilung von Daten zu kennen.
  • Wenn wir die Auswirkungen auf die Zielvariable analysieren möchten (Ausgang) in Bezug auf eine unabhängige Variable (Eintrag), Wir verwenden häufig Verteilungsgraphen.
  • Dieser Graph liefert uns eine Kombination von Wahrscheinlichkeitsdichtefunktionen (pdf) und Histogramm in einem einzigen Diagramm.

Implementierung:

  • Der Verteilungsgraph ist im Seaborn Paket.

Der Codeausschnitt lautet wie folgt:

sns.FacetGrid(hb,Farbton="SurvStat",Größe = 5).Karte(sns.distplot,'Alter').add_legend()

Techniken zur Datenvisualisierung |  Verteilungsdiagramm

Einige Schlussfolgerungen aus dem obigen Verteilungsdiagramm:

Aus dem vorherigen Verteilungsdiagramm können wir die folgenden Beobachtungen schließen:

  • Wir haben beobachtet, dass wir ein Verteilungsdiagramm für die Charakteristik . erstellen 'Alter’(Eingangsvariable) und wir verwenden verschiedene farben für die Überlebensstatus(Ausgangsgröße) da es die Klasse ist die vorhergesagt werden muss.
  • Es gibt einen großen Überlappungsbereich zwischen PDFs für verschiedene Kombinationen.
  • In dieser Grafik, die scharfen blockförmigen Strukturen werden Histogramme genannt und die geglättete Kurve wird als Wahrscheinlichkeitsdichtefunktion bezeichnet (PDF).

HINWEIS:

Die Wahrscheinlichkeitsdichtefunktion (PDF) einer Kurve kann uns helfen, die zugrunde liegende Verteilung dieses Merkmals zu erfassen, Dies ist eine der wichtigsten Erkenntnisse aus der Datenvisualisierung oder explorativen Datenanalyse (EDA).

2. Box-und-Whisker-Plot

  • Dieses Diagramm kann verwendet werden, um mehr zu gewinnen statistische Details über die Daten.
  • Die Linien am Maximum und am Minimum werden auch genannt Schnurrhaare.
  • Punkte außerhalb der Schnurrhaare gelten als Ausreißer.
  • Der Boxplot gibt uns auch eine Beschreibung der Quartile 25, 50, 75.
  • Mit Hilfe eines Boxplots, wir können auch die bestimmen Interquartilsabstand (IQR) wo die maximalen Details der Daten vorhanden sein werden. Deswegen, außerdem kann es uns eine klare Vorstellung von den Ausreißern im Datensatz geben.

Box-Plot |  Techniken zur Datenvisualisierung

Feige. Allgemeines Diagramm für einen Boxplot

Implementierung:

  • Boxplot ist aktiviert auf Seaborn Bücherei.
  • Dabei gilt x als abhängige Variable und y als unabhängige Variable. Diese Boxplots kommen unten univariate Analyse, was bedeutet, dass wir Daten mit nur einer Variablen untersuchen.
  • Hier versuchen wir, die Auswirkungen einer Funktion namens . zu überprüfen “Achse_Knoten” in der genannten Klasse “Überlebensstatus” und nicht zwischen zwei unabhängigen Merkmalen.

Der Codeausschnitt lautet wie folgt:

sns.boxplot(x='SurvStat',y='axil_nodes',data=hb)

Seaborn-Box-Plot |  Techniken zur Datenvisualisierung

Einige Schlussfolgerungen aus dem obigen Boxplot:

Aus dem obigen Box-and-Whisker-Plot können wir die folgenden Beobachtungen schließen:

  • Wie viele Daten sind im ersten Quartil vorhanden und wie viele Punkte sind Ausreißer, etc.
  • Für die Klasse 1, Wir können sehen, dass zwischen dem Median und dem ersten Quartil nur sehr wenige oder keine Daten vorhanden sind.
  • Es gibt mehr Ausreißer für die Klasse 1 in der Funktion namens axil_nodes.

HINWEIS:

Wir können Details zu den Ausreißern abrufen, um die Daten gut vorzubereiten, bevor sie an ein Modell gesendet werden, da Ausreißer viele Modelle des maschinellen Lernens beeinflussen.

3. Violinrahmen

  • Fiddle-Plots können als Kombination aus Box-Plots in der Mitte und Verteilungs-Plots betrachtet werden(Schätzung der Korndichte) auf beiden Seiten der Daten.
  • Dies kann uns die Beschreibung der Verteilung des Datensatzes geben, als ob die Verteilung multimodal, Schiefeetc.
  • Es liefert uns auch nützliche Informationen wie z Vertrauensintervall von 95%.

Violinhandlung |  Techniken zur Datenvisualisierung

Feige. Allgemeines Diagramm für einen Geigenrahmen

Implementierung:

  • Die Handlung der Geige ist in der Seaborn Paket.

Der Codeausschnitt lautet wie folgt:

sns.violinplot(x='SurvStat',y='on_yr',data=hb,Größe = 6)

Geigenhandlung im Meer geboren

Einige Schlussfolgerungen aus der obigen Geigendarstellung:

Aus der vorherigen Geigendarstellung können wir folgende Beobachtungen schließen:

  • Der Median beider Klassen liegt nahe bei 63.
  • Die maximale Anzahl von Personen mit Klasse 2 haben eine op_yr Wert von 65 während, für Leute in der Klasse 1, der maximale Wert ist ungefähr 60.
  • Zur selben Zeit, das dritte Quartil zum Median hat weniger Datenpunkte als der Median zum ersten Quartil.

Bivariate Analysetechniken zur Datenvisualisierung

1. Liniendiagramm

  • Dies ist die Grafik, die in den Ecken jeder Art von Analyse zwischen 2 Variablen.
  • Liniendiagramme sind nichts anderes als die Werte einer Reihe von Datenpunkten, die mit geraden Linien verbunden werden.
  • Die Handlung mag sehr einfach erscheinen, aber sie hat mehr Anwendungsmöglichkeiten nicht nur im maschinellen Lernen, sondern in vielen anderen Bereichen.

Implementierung:

  • Das Liniendiagramm ist im Matplotlib Paket.

Der Codeausschnitt lautet wie folgt:

plt.plot(x,Ja)

Liniendiagramm |  Techniken zur Datenvisualisierung

Einige Schlussfolgerungen aus dem vorherigen Liniendiagramm:

Aus dem vorherigen Liniendiagramm können wir die folgenden Beobachtungen schließen:

  • Diese werden direkt aus der Durchführung des Verteilungsvergleichs mit QQ-Raten CV mit dem stimmen Ellenbogenmethode.
  • Es wird verwendet, um die Leistung eines Modells unter Verwendung der ROC-Kurve- AUC.

2. Balkengrafik

  • Dies ist eine der am häufigsten verwendeten Grafiken, die wir nicht nur in der Datenanalyse mehrfach gesehen hätten, Wir verwenden diese Grafik aber auch immer dann, wenn es in vielen Bereichen eine Trendanalyse gibt.
  • Auch wenn es einfach erscheint, es ist mächtig, Daten zu analysieren wie Verkaufszahlen jede Woche, Umsatz mit einem Produkt, Anzahl der Besucher einer Website an jedem Tag der Wocheetc.

Implementierung:

  • Das Balkendiagramm ist im Matplotlib Paket.

Der Codeausschnitt lautet wie folgt:

plt.bar(x,Ja)

Balkengrafik

Einige Schlussfolgerungen aus dem vorherigen Balkendiagramm:

Aus dem vorherigen Balkendiagramm können wir die folgenden Beobachtungen schließen:

  • Wir können die Daten in einem coolen Plot visualisieren und die Details direkt an andere weitergeben.
  • Dieser Graph kann einfach und klar sein, aber nicht sehr oft in Data Science-Anwendungen verwendet.

3. Ausbreitungsdiagramm

  • Es ist eines der am häufigsten verwendeten Diagramme zur Visualisierung einfacher Daten im maschinellen Lernen und in der Datenwissenschaft.
  • Diese Grafik beschreibt uns als Repräsentation, wobei jeder Punkt im vollständigen Datensatz in Bezug auf vorhanden ist 2 Ö 3 Merkmale (Säulen).
  • Streudiagramme sind sowohl in 2D als auch in 3D verfügbar. Das 2-D-Streudiagramm ist das gebräuchlichste, wo wir hauptsächlich versuchen werden, die Muster zu finden, Gruppen und Trennbarkeit von Daten.

Implementierung:

  • Das Streudiagramm ist im Matplotlib Paket.

Der Codeausschnitt lautet wie folgt:

plt.streuung(x,Ja)

Streudiagramm

Einige Schlussfolgerungen aus dem obigen Streudiagramm:

Aus dem vorherigen Streudiagramm können wir die folgenden Beobachtungen schließen:

  • Farben werden verschiedenen Datenpunkten zugewiesen, je nachdem, wie sie im Datensatz vorhanden waren. Mit anderen Worten, Darstellung der Zielspalte.
  • Wir können die Datenpunkte basierend auf ihrer angegebenen Klassenbezeichnung im Datensatz einfärben.

Damit ist die heutige Diskussion abgeschlossen!!

Abschließende Anmerkungen

Danke fürs Lesen!

Ich hoffe, Ihnen hat der Beitrag gefallen und Sie haben Ihr Wissen über Datenvisualisierungstechniken erweitert.

Zögern Sie nicht, mich zu kontaktieren Über Email

Alles was nicht erwähnt wurde oder du deine Gedanken teilen möchtest? Fühlen Sie sich frei, unten einen Kommentar zu hinterlassen und ich melde mich bei Ihnen.

Für die restlichen Beiträge, Frag die Verknüpfung.

Über den Autor

Aashi Goyal

Im Augenblick, Ich studiere meinen Bachelor of Technology (B.Tech) in Elektro- und Nachrichtentechnik von Universidad Guru Jambheshwar (GJU), Hisar. Ich bin sehr gespannt auf die Statistik, Maschinelles Lernen und Deep Learning.

Ihre Vorschläge und Zweifel sind hier im Kommentarbereich willkommen. Danke, dass du meinen Beitrag gelesen hast!!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.