Einführung
In der realen Welt, jede Sekunde werden die Daten größer. Um Daten schnell zu verstehen und Informationen zu erhalten, Datenvisualisierung wird notwendig.
Zum Beispiel, Betrachten Sie einen Fall, in dem Sie gebeten werden, entscheidende Verkaufsaspekte zu veranschaulichen (als Verkaufsleistung, Zielsetzung, Einkommen, Anschaffungskosten, etc.) aus großen Mengen an Verkaufsdaten, Was würdest du bevorzugen:
- Erkunden Sie die Daten mit Excel (oder Tabellenkalkulationen) und jeden Aspekt des Verkaufs manuell verfolgen.
- Erkunden Sie Daten mithilfe verschiedener Arten von Verkaufsdiagrammen und -tabellen.
Offensichtlich, Ich bevorzuge Grafiken und Tabellen. Deswegen, Datenvisualisierung spielt eine Schlüsselrolle bei der Datenexploration und -analyse.
Datenvisualisierung ist die Technik zur Darstellung der Daten / Informationen in bildlicher oder grafischer Form. Ermöglicht Stakeholdern und Entscheidungsträgern, Daten visuell zu analysieren und zu untersuchen und tiefe Einblicke zu gewinnen.
“Visualisierung gibt Ihnen Antworten auf Fragen, von denen Sie nicht wussten, dass Sie sie haben”. – Ben Schneidermann
Vorteile der Datenvisualisierung
- Hilfe bei der Datenanalyse, Datenexploration und macht Daten verständlicher.
- Fassen Sie komplexe quantitative Informationen auf engstem Raum zusammen.
- Helfen Sie mit, die neuesten Trends zu entdecken, versteckte Muster in den Daten.
- Identifizieren Sie Beziehungen / Korrelationen zwischen Variablen.
- Hilft bei der Untersuchung von Bereichen, die Aufmerksamkeit oder Verbesserung benötigen.
Warum Plotly?
Es gibt mehrere Bibliotheken in Python wie Matplotlib, Seaborn, etc. zur Datenvisualisierung. Aber sie stellen nur die statischen Bilder der Grafiken dar / Grafiken und, deswegen, Viele entscheidende Dinge gehen in der Visualisierung verloren. Wäre es nicht toll, wenn wir mit der Maus besser mit der Grafik interagieren könnten (Ö) rückt näher? Handlung erlaubt uns das gleiche zu tun.
- Plotly ist eine Open-Source-Datenvisualisierungsbibliothek zum Erstellen von Diagrammen / interaktive Grafiken in Publikationsqualität.
- Plotly bietet die Implementierung vieler Arten von Diagrammen / verschiedene Objekte wie Liniendiagramm, Ausbreitungsdiagramm, Flächendiagramm, Histogramm, Box-Plot, Balkendiagramm, etc.
- Plotly unterstützt interaktives Plotten in gängigen Programmiersprachen wie Python, R, MATLAB, Javascript, etc.
In diesem Beitrag, Wir behandeln die am häufigsten verwendeten Diagrammtypen mit Handlung. Also fangen wir an zu verwenden Autos93 Datensatz verfügbar in Kaggle.
Der Datensatz enthält 27 Autoparameter (als Hersteller, Marke, Preis, Pferdestärken, Motorgröße, Last, Zylinder, Airbags, Passagiere, etc.) von 93 verschiedene Autos.
Der Datensatz sieht so aus:
Zusätzliche Anmerkung: Um auf den gesamten Python-Code zuzugreifen, Folge Kaggle-Kernel hier(https://www.kaggle.com/vikashrajluhaniwal/interactive-visualizations-using-plotly).
Plotly Installation
Für die Installation Handlung, Verwenden Sie den folgenden Befehl im Terminal.
pip install plotly
Plotly wird mit wenigen Modulen geliefert, um Visualisierungen zu erstellen, nämlich, gibt uns die Möglichkeit, es zu verwenden.
- Schnell: Eine High-Level-Schnittstelle zum Erstellen schneller Visualisierungen. Es ist ein Rundum-Plotly Graph_objects Modul.
- Graph_objects: Eine Low-Level-Schnittstelle für Zahlen, Striche und Designs. Es ist im Allgemeinen für verschiedene Grafiken hochgradig anpassbar / Bretter.
- figure_factory: Shape-Factories sind spezielle Funktionen zum Erstellen ganz bestimmter Arten von Grafiken. Es war vor der Existenz von Plotly verfügbar Schnell, Daher, veraltet wie “vererbt”.
bekannt und installiert Handlung, Jetzt lass uns verschiedene Graphen zeichnen / Tabellen, die es verwenden.
1. Box-Plot
- Ein Boxplot (oder Box-and-Whisker-Plot) ist eine standardisierte Darstellung der Verteilung quantitativer Daten auf Basis einer Fünf-Punkte-Zusammenfassung (Minimum, erstes Quartil (Q1), Median (Q2), drittes Quartil (Q3), und maximal).
- Die Box erstreckt sich von den Werten des Quartils Q1 bis Q3, während sich die Schnurrhaare von den Rändern der Box bis zum IQR von erstrecken 1,5 *. IQR = (Q3 – Q1)
Jetzt erstellen wir einen Boxplot für Autos ‘ Preis charakteristisch.
Das Beste an dieser Visualisierung ist, dass wir mit ihr interagieren können, indem wir uns bewegen, um die Werte der Quantile zu sehen.
Auf die gleiche Weise, wir können es nach anforderung anpassen. Zum Beispiel, zeichne einen Boxplot von Preis für jedes Airbags schreibt.
2. Histogramm
- Ein Histogramm ist eine genaue Darstellung der Verteilung numerischer Daten.
- So erstellen Sie ein Histogramm, folge diesen Schritten:
- Abteil (die Anzahlung) der Wertebereich: den gesamten Wertebereich in eine Reihe von Intervallen einteilen.
- Erzählen wie viele Werte fallen in jedes Intervall.
Lass uns ein Histogramm für Autos zeichnen ‘ Pferdestärken charakteristisch.
Hier, die x-Achse handelt von bin-Bereichen von Pferdestärken während die Y-Achse über die Frequenz spricht / in jedem Behälter zählen.
3. Dichtediagramm
- Der Dichteplot ist eine Variation eines Histogramms, wobei anstatt die Frequenz auf der Y-Achse darzustellen, repräsentiert die PDF-Werte (Wahrscheinlichkeitsdichtefunktion).
- Es ist sinnvoll, die Schiefe der Variablen visuell zu bestimmen.
- Was ist mehr, nützlich, um die Bedeutung einer kontinuierlichen Variablen für ein Klassifikationsproblem zu bewerten.
Das Dichtediagramm von Pferdestärken beyogen auf Airbags Typ ist wie unten gezeigt.
4. Balkengrafik
- Ein Balkendiagramm stellt kategoriale Daten mit rechteckigen Balken dar, deren Gewichte proportional zu den Werten sind, die sie darstellen.
- Ein Balkendiagramm zeigt Vergleiche zwischen einzelnen Kategorien.
Das Balkendiagramm der Schreibt Funktion ist wie unten gezeigt.
Auf die gleiche Weise, Wir können es anpassen, um es anzuzeigen MPG.stadt bedeutet auf der Y-Achse, anstatt die Zählung anzuzeigen.
5. Kuchendiagramm
- Das Tortendiagramm wird verwendet, um den numerischen Anteil der Daten in einem Tortendiagramm darzustellen.
- Die gesamte Fläche des Graphen repräsentiert die 100% der Daten, die Bogenlänge jedes Schnitts stellt den relativen Prozentsatz des Ganzen dar.
Das Tortendiagramm von Schreibt Funktion ist wie unten gezeigt.

6. Streudiagramm
- Ein Streudiagramm verwendet Punkte, um Werte für zwei verschiedene numerische Variablen darzustellen.
- Es ist sehr nützlich, die Beziehung zwischen zwei numerischen Variablen zu beobachten.
Lassen Sie uns ein Streudiagramm zeichnen, um die Beziehung zwischen Pferdestärken Ja MPG.stadt.
Aus dieser Grafik, wir können das beobachten wie Pferdestärken steigt, MPG in der Stadt nimmt ab.
Plotly bietet auch eine Möglichkeit, 3D-Scatterplots zu zeichnen. Lass uns dasselbe mit zeichnen Pferdestärken, MPG.stadt, Ja Preis Merkmale.
Ähnlich, wir können eine Matrix von Streudiagrammen zeichnen (ein Gitter / Streudiagrammmatrix) um paarweise Beziehungen für jede Kombination von Variablen auszuwerten.
7. Liniendiagramm
- Ein Liniendiagramm ist ein Diagrammtyp, der Informationen als eine Reihe von Datenpunkten anzeigt, die als „Marker“ bezeichnet werden.’ verbunden durch gerade Liniensegmente.
- Es ähnelt einem Streudiagramm, außer dass die Messpunkte geordnet sind (normalerweise durch seinen x-Achsen-Wert) und mit geraden Liniensegmenten verbunden.
- Liniendiagramme werden im Allgemeinen verwendet, um Beziehungen zwischen zwei numerischen Variablen zu finden oder einen Trend in Zeitreihendaten zu visualisieren..
Lassen Sie uns ein Streudiagramm zeichnen, um die Beziehung zwischen Pferdestärken Ja MPG.stadt.
8. Heatmap
- Eine Heatmap ist eine zweidimensionale grafische Darstellung von Daten, während die Matrixwerte in verschiedenen Farbnuancen dargestellt werden.
- Eine Heatmap soll eine farbcodierte visuelle Zusammenfassung der Daten bieten / Information.
- Seaborn erlaubt auch kommentierte Heatmaps.
Lassen Sie uns eine Heatmap zeichnen, um die Korrelationsmatrix von darzustellen Autos93 Daten.
9. Violinrahmen
- Violinplots ähneln Boxplots, außer dass sie auch die Wahrscheinlichkeitsdichte der Daten bei verschiedenen Werten anzeigen. Mit anderen Worten, Geigendiagramm ist eine Kombination aus Boxplot und Dichteplot.
- Breitere Abschnitte des Violinplots weisen auf eine höhere Wahrscheinlichkeit hin, während schmale Abschnitte eine geringere Wahrscheinlichkeit anzeigen.
Die Geigenhandlung der Preis Die Funktion ist unten gezeigt.
Auf die gleiche Weise, wir können es anpassen mit Handlung um die Tabelle und alle Datenpunkte anzuzeigen.
10. Wortwolke
- Word Cloud ist eine Visualisierungstechnik, um die Häufigkeit von Wörtern innerhalb eines bestimmten Textsegments darzustellen.
- Die Größe eines Wortes gibt an, wie oft es im Text vorkommt. Je größer die Größe, desto größer die Bedeutung (Frequenz), je kleiner die größe, weniger wird die Bedeutung sein (Frequenz).
- Wortwolken werden häufig verwendet, um die Häufigkeit von Wörtern in Textdokumenten darzustellen., Berichte, Website-Daten, öffentliche Reden, etc.
Wortwolke eines Auserwählten Text dokument es ist wie unten gezeigt.
Abschließende Anmerkungen
In diesem Artikel, Wir diskutieren verschiedene Arten von Grafiken / Grafiken mit Handlung und Python. Handlung sehr empfehlenswert für die Erstellung interaktiver Visualisierungen.
Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.