Automatisieren Sie damit explorative Datenanalysen 10 Bibliotheken

Inhalt

Thema zu behandeln

  1. Was ist explorative Datenanalyse?
  2. Was ist notwendig, um die explorative Datenanalyse zu automatisieren??
  3. Python-Bibliotheken zur Automatisierung der explorativen Datenanalyse
Bild zur explorativen Datenanalyse automatisieren

Explorative Datenanalyse

ist eine Datenexplorationstechnik, um verschiedene Aspekte von Daten zu verstehen. Es ist ein bisschen wie Datenzusammenfassung. Dies ist einer der wichtigsten Schritte, bevor Sie eine maschinelle Lern- oder Deep-Learning-Aufgabe durchführen..

Data Scientists führen explorative Datenanalyseverfahren durch, um zu erkunden, die grundlegenden Eigenschaften von Datensätzen sezieren und zusammenfassen, regelmäßiger Einsatz von Informationsrepräsentationsansätzen. EDA-Verfahren berücksichtigen überzeugende Kontrolle der Informationsquellen, Datenwissenschaftlern ermöglichen, die richtigen Antworten zu finden, die sie beim Finden von Informationsdesigns benötigen, Inkonsistenzen erkennen, Annahmen überprüfen oder Spekulationen testen.

Data Scientists nutzen explorative Datenanalyse um zu sehen, welche Datensätze sie über die herkömmliche Anzeige von Informationen hinaus entdecken können oder Spekulationstestaufgaben. Auf diese Weise können sie sich von oben nach unten über die Faktoren in den Datensätzen und deren Zusammenhänge informieren.. Explorative Datenanalyse kann helfen, eindeutige Fehler zu erkennen, Ausnahmen in Datensätzen unterscheiden, Verbindungen bekommen, wichtige Elemente entdecken, Insider-Designs entdecken und neue Erkenntnisse liefern.

36634Schritte20in20eda-7509206

Schritte in der explorativen Datenanalyse

Notwendigkeit, die explorative Datenanalyse zu automatisieren

Die erweiterte Bewegung der Kunden im Web, die raffinierten Tools zur Kontrolle des Web-Traffics, die Vermehrung von Mobiltelefonen, webfähige Geräte und IoT-Sensoren sind die wesentlichen Elemente, die das Tempo des heutigen Informationszeitalters beschleunigen. In diesem computerisierten Zeitalter, Verbände jeder Größe wissen, dass Informationen eine entscheidende Rolle bei der Verbesserung ihrer Kompetenz spielen können, Rentabilität und dynamische Fähigkeiten, was zu größeren Vereinbarungen führt, Einkommen und Leistungen.

Heute, die meisten Organisationen gehen mit riesigen Datensätzen um, aber trotzdem, Nur große Mengen an Informationen zu haben, verbessert das Geschäft nicht, es sei denn, Unternehmen recherchieren zugängliche Daten und drängen auf autorisierte Entwicklung.

21090automatisieren-4296140

Im Lebenszyklus eines Data-Science-Projekts oder eines Machine-Learning-Projekts, mehr als 60% deiner Zeit in Sachen Datenanalyse einsteigen, Merkmalsauswahl, Feature-Engineering, etc. Weil es der wichtigste Teil oder das Rückgrat eines Data-Science-Projekts ist, es ist dieser spezielle Teil, in dem Sie viele Aktivitäten wie das Bereinigen der Daten durchführen müssen, mit fehlenden Werten umgehen , mit Ausreißern umgehen, Umgang mit unausgeglichenen Datensätzen, Umgang mit kategorialen Merkmalen und vieles mehr. Also wenn du willst Sparen Sie Ihre Zeit in der explorativen Datenanalyse, wir können Python-Bibliotheken verwenden wie dtale, Pandas Profil, Sweetviz und Autoviz um unsere Aufgaben zu automatisieren.

Bibliotheken automatisieren explorative Datenanalyse

Bibliotheken automatisieren explorative Datenanalyse

In diesem Blog, wir haben vier wichtige Python-Bibliotheken besprochen. Diese sind unten aufgeführt:

  1. Geschichte
  2. Pandas Profil
  3. süßviz
  4. autoviz

D-Geschichte

94595dtale-4740418

Es ist eine Bibliothek, die im Februar gestartet wurde 2020 was es uns ermöglicht, den Pandas-Datenrahmen einfach zu visualisieren. Es verfügt über viele Funktionen, die für die explorative Datenanalyse sehr nützlich sind. Es wird mit dem Flask-Backend erstellt und reagiert auf das Frontend. Unterstützt interaktive Grafiken, 3D-Grafik, Heatmaps, die Korrelation zwischen den Eigenschaften, Erstellen Sie benutzerdefinierte Spalten und vieles mehr. Er ist der bekannteste und der Favorit von allen.

Installation

dtale kann mit dem folgenden Code installiert werden:

pip installiere dtale

Explorative Datenanalyse mit D-tale

Tauchen wir mit dieser Bibliothek tiefer in die explorative Datenanalyse ein. Zuerst, Wir müssen einen Code schreiben, um die interaktive d-tale-Anwendung lokal zu starten:

Daten importieren
Pandas als pd importieren
df = pd.read_csv('data.csv')
d = dtale.show(df)
d.open_browser()

Hier importieren wir Pandas und geben es. Wir lesen den Datensatz mit der Funktion read_csv () und schließlich zeigen wir die Daten im Browser lokal über die Funktion anzeigen an und öffnen den Browser.

Zeigen Sie Daten auf die gleiche Weise an wie Pandas, aber es hat eine zusätzliche Funktion, Es hat ein Menü in der oberen linken Ecke, mit dem wir viele Dinge tun können und die Anzahl der Spalten und Zeilen in unserem Datensatz anzeigt.

Die Ausgabe des obigen Codes ist unten gezeigt:

96961dtale-1-9308929

Wenn Sie auf eine Spaltenüberschrift klicken, Dropdown-Menü wird angezeigt. Es wird Ihnen viele Möglichkeiten bieten, So sortieren Sie die Daten, den Datensatz beschreiben, Säulenanalyse und vieles mehr. Sie können diese Funktion auch selbst überprüfen

88926dtale-2-6782316

Wenn Sie auf Beschreiben klicken, zeigt die statistische Analyse der ausgewählten Spalte als Mittelwert an, Median, maximal, minimale Varianz, Standardabweichung, Quartile und viele mehr.

49635dtale-3-5801855

Auf die gleiche Weise, Sie können andere Funktionen selbst ausprobieren, als Säulenanalyse, Formate, Filter.

Magie von dtale: Klicken Sie auf die Menüschaltfläche und Sie finden alle verfügbaren Optionen

46757dtale-4-7849670

Nicht alle Funktionen können abgedeckt werden, aber ich beschreibe die interessantesten.

Korrelationen – Es zeigt uns, wie die Spalten miteinander korrelieren.

16581dtale-5-7074173

Grafik– Zolldiagramme als Liniendiagramme erstellen, Balkendiagramme, Kreisdiagramme, gestapelte Grafiken, Streudiagramme, geologische Karten, etc.

42843dtale-6-9528345

In dieser Bibliothek stehen viele Optionen für die Datenanalyse zur Verfügung. Dieses Tool ist sehr nützlich und macht die explorative Datenanalyse viel schneller als die Verwendung herkömmlicher Bibliotheken für maschinelles Lernen wie Pandas, matplotlib, etc.

Um offizielle Dokumente zu erhalten, Überprüfen Sie diesen Link:

dtale PyPI

Pandas-Profiling

99350S.-1-9009235

Es ist eine in Python geschriebene Open-Source-Bibliothek, die interaktive HTML-Berichte generiert und verschiedene Aspekte des Datensatzes beschreibt. Zu den wichtigsten Funktionen gehört der Umgang mit fehlenden Werten, Datensatzstatistik als Mittelwert, Mode, Median, Asymmetrie, Standardabweichung, etc., auch Grafiken wie Histogramme und Korrelationen.

Installation

Pandas Profiling kann mit dem folgenden Code installiert werden:

pip install Pandas-Profiling

Explorative Datenanalyse mit Pandas Profiling

Tauchen wir mit dieser Bibliothek tiefer in die explorative Datenanalyse ein. Ich verwende ein Beispiel-Dataset, um mit der Profilerstellung von Pandas zu beginnen, Überprüfen Sie den folgenden Code:

#Importieren erforderlicher Pakete
Pandas als pd importieren
pandas_profiling importieren
numpy als np importieren

#Daten importieren
df = pd.read_csv('sample.csv')

#beschreibende Statistik
pandas_profiling.ProfileReport(df)

Unten ist die magische Ausgabe des obigen Codes

63765S.-2-6082533

Hier ist das Ergebnis. Ein Bericht wird angezeigt und gibt an, wie viele Variablen sich in unserem Datensatz befinden, die Anzahl der Reihen, die fehlenden Zellen im Datensatz, der Prozentsatz der fehlenden Zellen, die Anzahl und der Prozentsatz der doppelten Zeilen. Fehlende und doppelte Zelldaten sind für unsere Analyse sehr wichtig, da sie das größere Bild des Datensatzes beschreiben. Der Bericht zeigt auch die Gesamtspeichergröße an. Es zeigt auch die Variablentypen auf der rechten Seite der Ausgabe an.

Der Variablenbereich zeigt die Analyse einer bestimmten Spalte. Zum Beispiel für die kategoriale Variable, die folgende Ausgabe erscheint.

74355S.-3-1515959

Für ihn numerische Variable, die folgende Ausgabe erscheint

20938S.-4-3730010

Bietet eine eingehende Analyse numerischer Variablen als Quantil, Medien, Mediansumme, Abweichung, Monotonie, Rang, Krümmung, Interquartilsabstand und viele mehr.

Korrelationen und Interaktion: Beschreiben Sie, wie Variablen miteinander korreliert sind mit. Diese Daten werden von Data Scientists dringend benötigt.

78740S.-5-2528666

Für mehr Informationen, konsultieren Sie die offizielle Dokumentation:

Süßviz

Es ist eine Open-Source-Python-Bibliothek, die verwendet wurde, um Visualisierungen zu erhalten, was bei der explorativen Datenanalyse mit nur wenigen Codezeilen nützlich ist. Die Bibliothek kann verwendet werden, um die Variablen zu visualisieren und den Datensatz zu vergleichen.

59830ss-1-6448515

Installation

Diese Bibliothek kann mit dem folgenden Code installiert werden:

pip installieren sweetviz

Explorative Datenanalyse mit SweetViz

Tauchen wir mit dieser Bibliothek tiefer in die explorative Datenanalyse ein. Ich verwende ein Beispiel-Dataset, um zu beginnen, Überprüfen Sie den folgenden Code

Sweetviz importieren
Pandas als pd importieren
df = pd.read_csv('sample.csv')
my_report = sweetviz.analyze([df,'Bahn'], target_feat="VerkaufPreis")
my_report.show_html('FinalReport.html')

Abschlussbericht:

11720ss-3-9401023

Für mehr Informationen, konsultieren Sie die offizielle Dokumentation:

sweetviz · PyPI

Autoviz

Bedeutet Anzeige automatisch. Visualisierung ist bei jeder Größe des Datensatzes mit wenigen Codezeilen möglich.

30449aa-1-5333852

Installation

pip install autoviz

Anzeige

Beispielcode:

aus autoviz.AutoViz_Class importieren AutoViz_Class
AV = AutoViz_Class()
df = AV.AutoViz('sample.csv')

Kontinuierliches Variablenhistogramm:

55308aa-2-6101477

Violinrahmen:

93794aa-3-1272429

Heatmap:

83495aa-4-6688390

Streudiagramm:

24780aa-5-8660564

Für mehr Informationen, konsultieren Sie die offizielle Dokumentation:

autovizPyPI

Danke, dass du das gelesen hast. Wenn dir dieser Artikel gefällt, Teile es mit deinen Freunden. Bei Anregungen / Zweifel, kommentiere unten.
E-Mail-Identifikation: [E-Mail geschützt]
Folgen Sie mir auf LinkedIn: LinkedIn

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.