Big Data

Explorative Datenanalyse (EDA) von Anfang an

Einführung

Explorative Datenanalyse ist heute eine der Best Practices in der Datenwissenschaft. Beim Berufseinstieg in Data Science, Menschen kennen im Allgemeinen den Unterschied zwischen Datenanalyse und explorativer Datenanalyse nicht. Es gibt keinen großen Unterschied zwischen den beiden, aber sie haben beide unterschiedliche zwecke.

Explorative Datenanalyse (EDA): explorative Datenanalyse ist eine Ergänzung Inferenzstatistik, was bei Regeln und Formeln eher starr ist. Auf fortgeschrittenem Niveau, Bei der EDA geht es darum, den Datensatz aus verschiedenen Blickwinkeln zu betrachten, zu beschreiben und dann zusammenzufassen.

Datenanalyse: Datenanalyse ist die Statistik und Wahrscheinlichkeit, Trends im Datensatz zu entdecken. Wird verwendet, um historische Daten mithilfe einiger Analysetools anzuzeigen. Hilft, Informationen aufzuschlüsseln, um Metriken zu transformieren, Zahlen und Fakten zu Verbesserungsinitiativen.

Explorative Datenanalyse (EDA)

Wir werden einen Datensatz untersuchen und eine explorative Datenanalyse in Python durchführen. Sie können unsere Python-Kurs online um mit Python an Bord zu kommen.

Die wichtigsten Themen, die behandelt werden sollen, sind wie folgt:

– Fehlenden Wert behandeln
– Duplikate entfernen
– Behandlung von Ausreißern
– NormalisierungNormung ist ein grundlegender Prozess in verschiedenen Disziplinen, , die darauf abzielt, einheitliche Standards und Kriterien zur Verbesserung von Qualität und Effizienz festzulegen. In Kontexten wie dem Ingenieurwesen, Bildung und Verwaltung, Standardisierung erleichtert den Vergleich, Interoperabilität und gegenseitiges Verständnis. Bei der Implementierung von Standards, Der Zusammenhalt wird gefördert und die Ressourcen werden optimiert, die zu einer nachhaltigen Entwicklung und zur kontinuierlichen Verbesserung der Prozesse beiträgt.... y escalado (numerische Variablen)
– Codierung kategorialer Variablen (Dummy-Variablen)
– Bivariate Analyse

# Bibliotheken importieren

# Laden des Datensatzes

Wir werden die Excel-Datei von EDA-Autos mit Pandas laden. Dafür, Wir werden die read_excel-Datei verwenden.

# Grundlegende Datenexploration

In diesem Schritt, Wir führen die folgenden Operationen durch, um zu überprüfen, woraus der Datensatz besteht. Wir werden folgende Dinge prüfen:

– Datensatz-Manager
– die Form des Datensatzes
– Datensatzinformationen
– Datensatzzusammenfassung

Die Kopffunktion zeigt Ihnen die besten Datensätze im Datensatz an. Standardmäßig, Python zeigt dir nur die 5 Hauptregister.
Das Shape-Attribut teilt uns eine Reihe von Beobachtungen und Variablen mit, die wir im Datensatz haben. Se utiliza para verificar la Abmessungen"Dimension" Es handelt sich um einen Begriff, der in verschiedenen Disziplinen verwendet wird, wie z.B. Physik, Mathematik und Philosophie. Er bezieht sich auf das Ausmaß, in dem ein Objekt oder Phänomen analysiert oder beschrieben werden kann. In der Physik, zum Beispiel, Es ist die Rede von räumlichen und zeitlichen Dimensionen, während es sich in der Mathematik auf die Anzahl der Koordinaten beziehen kann, die notwendig sind, um einen Raum darzustellen. Es zu verstehen, ist grundlegend für das Studium und... der Daten. Der Automobildatensatz hat 303 Beobachtungen und 13 Variablen im Datensatz.
die Info () verwendet, um Informationen über Daten und Datentypen jedes jeweiligen Attributs zu überprüfen.

Indem Sie sich die Daten in der Hauptfunktion und in den Informationen ansehen, sabemos que la VariableIn Statistik und Mathematik, ein "Variable" ist ein Symbol, das einen Wert darstellt, der sich ändern oder variieren kann. Es gibt verschiedene Arten von Variablen, und qualitativ, die nicht-numerische Eigenschaften beschreiben, und quantitative, numerische Größen darstellen. Variablen sind grundlegend in Experimenten und Studien, da sie die Analyse von Beziehungen und Mustern zwischen verschiedenen Elementen ermöglichen, das Verständnis komplexer Phänomene zu erleichtern.... Ingresos y el tiempo de viaje son de tipo de datos flotantes en lugar del objeto. Dann machen wir es zum Schwimmer. Was ist mehr, es gibt einige ungültige Werte wie @@ und ‚*‚en los datos que trataremos como valores perdidos.
Die beschriebene Methode hilft zu sehen, wie die Daten für numerische Werte verteilt wurden. Wir können den Mindestwert deutlich sehen, Mittelwerte, verschiedene Perzentilwerte und Maximalwerte.

Umgang mit fehlenden Werten

Wir können sehen, dass wir in den jeweiligen Spalten mehrere fehlende Werte haben. Es gibt mehrere Möglichkeiten, mit fehlenden Werten im Datensatz umzugehen. Und welche Technik Sie verwenden sollten, wenn es wirklich von der Art der Daten abhängt, mit denen Sie es zu tun haben.

Eliminieren Sie fehlende Werte: in diesem Fall, wir eliminieren die fehlenden Werte dieser Variablen. Bei sehr wenigen fehlenden Werten, kann sie löschen.
Mit Mittelwert imputieren: für die numerische Spalte, fehlende Werte kannst du durch Mittelwerte ersetzen. Vor dem Ersetzen durch den Mittelwert, Es ist ratsam zu überprüfen, dass die Variable keine Extremwerte aufweisen sollte. dh Ausreißer.
Mit Medianwert imputieren: für die numerische Spalte, fehlende Werte kannst du auch durch Medianwerte ersetzen. Falls Sie extreme Werte haben, als Ausreißer, es aconsejable utilizar el método de la MedianDer Median ist ein statistisches Maß, das den zentralen Wert eines Satzes geordneter Daten darstellt. Um es zu berechnen, Die Daten werden von der niedrigsten zur höchsten sortiert und die Zahl in der Mitte wird identifiziert. Wenn es eine gerade Anzahl von Beobachtungen gibt, Die beiden Kernwerte werden gemittelt. Dieser Indikator ist besonders nützlich bei asymmetrischen Verteilungen, da es nicht von Extremwerten beeinflusst wird.....
Mit Moduswert imputieren: für die kategoriale Spalte, Sie können fehlende Werte durch Moduswerte ersetzen, nämlich, das häufige.

In dieser Übung, wir werden die numerischen Spalten durch Medianwerte ersetzen und, für kategoriale Spalten, wir werden die fehlenden Werte löschen.

Umgang mit doppelten Datensätzen

Seit wir ... Haben 14 doppelte Datensätze in den Daten, Wir werden es aus dem Datensatz entfernen, um nur unterschiedliche Datensätze zu erhalten. Nach dem Entfernen des Duplikats, Wir prüfen, ob die Duplikate aus dem Datensatz entfernt wurden oder nicht.

Umgang mit Ausreißern

Ausreißer, als die extremsten Beobachtungen, kann das Maximum oder Minimum der Stichprobe enthalten, die beiden, je nachdem ob sie extrem hoch oder niedrig sind. Aber trotzdem, das Maximum und das Minimum der Stichprobe sind nicht immer Ausreißer, da sie möglicherweise nicht ungewöhnlich weit von anderen Beobachtungen entfernt sind.

Ausreißer identifizieren wir in der Regel mit Hilfe des Boxplots, Hier zeigt das Boxplot also einige der Datenpunkte außerhalb des Datenbereichs.

Blick auf den Boxplot, es scheint, dass die Variablen INCOME, haben Ausreißer in den Variablen. Diese Ausreißer müssen berücksichtigt werden und es gibt mehrere Möglichkeiten, damit umzugehen:

Entfernen Sie den Ausreißer
Ersetzen Sie den Ausreißer mit dem IQR

#Boxplot Nach dem Entfernen des Ausreißers

Bivariate Analyse

Wenn wir über bivariate Analyse sprechen, bedeutet analysieren 2 Variablen. Da wir wissen, dass es numerische und kategoriale Variablen gibt, Es gibt eine Möglichkeit, diese Variablen wie unten gezeigt zu analysieren:

Numerisch vs. numerisch

1. AusbreitungsdiagrammDas Streudiagramm ist ein grafisches Werkzeug, das in der Statistik verwendet wird, um die Beziehung zwischen zwei Variablen zu visualisieren. Es besteht aus einer Menge von Punkten in einer kartesischen Ebene, wobei jeder Punkt ein Wertepaar darstellt, das den analysierten Variablen entspricht. Diese Art von Diagramm ermöglicht es Ihnen, Muster zu erkennen, Trends und mögliche Korrelationen, Erleichterung der Dateninterpretation und Entscheidungsfindung auf der Grundlage der präsentierten visuellen Informationen....
2. LiniendiagrammDas Liniendiagramm ist ein visuelles Werkzeug, das zur Darstellung von Daten im Zeitverlauf verwendet wird. Es besteht aus einer Reihe von Punkten, die durch Linien verbunden sind, die es Ihnen ermöglicht, Trends zu beobachten, Schwankungen und Muster in den Daten. Diese Art von Diagramm ist besonders nützlich in Bereichen wie der Wirtschaft, Meteorologie und wissenschaftliche Forschung, Dies erleichtert den Vergleich verschiedener Datensätze und die Identifizierung von Verhaltensweisen auf breiter Front..
3. Heatmapein "Heatmap" ist eine grafische Darstellung, die Farben verwendet, um die Dichte von Daten in einem bestimmten Bereich anzuzeigen. Häufig in der Datenanalyse verwendet, Marketing und Verhaltensstudien, Diese Art der Visualisierung ermöglicht es Ihnen, Muster und Trends schnell zu erkennen. Durch chromatische Variationen, Heatmaps erleichtern die Interpretation großer Informationsmengen, dabei helfen, fundierte Entscheidungen zu treffen.... para la correlación
4. Gemeinschaftsgrundstück
Kategorial vs. Numerisch

1. BalkengrafikDas Balkendiagramm ist eine visuelle Darstellung von Daten, die rechteckige Balken verwendet, um Vergleiche zwischen verschiedenen Kategorien anzuzeigen. Jeder Balken stellt einen Wert dar, und seine Länge ist proportional zu ihm. Diese Art von Diagramm ist nützlich, um Trends zu visualisieren und zu analysieren, Erleichterung der Interpretation quantitativer Informationen. Es ist in verschiedenen Disziplinen weit verbreitet, wie z.B. Statistiken, Marketing und Forschung, Aufgrund seiner Einfachheit und Effektivität....
2. Violinrahmen
3. Kategorialer Boxplot
4.warmes Grundstück
Zwei kategoriale Variablen

1. Balkengrafik
2. Gruppiertes Balkendiagramm
3. Punktdiagramm

Wenn wir den Zusammenhang finden müssen-

Normalisieren und skalieren

Häufig, die Variablen im Datensatz haben unterschiedliche Skalen, nämlich, eine Variable ist in Millionen und andere in nur 100. Zum Beispiel, in unserem Datensatz, Einkommen hat Werte in Tausend und Alter nur zweistellig. Da die Daten dieser Variablen unterschiedliche Skalen haben, Es ist schwierig, diese Variablen zu vergleichen.

Die Skala der Eigenschaften (auch als Datennormalisierung bekannt) ist die Methode zur Standardisierung des Merkmalsumfangs der Daten. Da der Bereich der Datenwerte stark variieren kann, wird ein notwendiger Schritt in der Datenvorverarbeitung bei der Verwendung von maschinellen Lernalgorithmen.

Bei dieser Methode, wir konvertieren Variablen mit unterschiedlichen Messskalen in eine einzige Skala. StandardScaler normalisiert die Daten mit der Formel (x-Mittelwert) / Standardabweichung. Wir werden dies nur für numerische Variablen tun.

CODIERUNG

One-Hot-Encoding wird verwendet, um Dummy-Variablen zu erstellen, um die Kategorien in einer kategorialen Variablen in den Merkmalen jeder Kategorie zu ersetzen und sie mithilfe von . darzustellen 1 Ö 0 je nach Vorhandensein oder Fehlen des kategorialen Werts im Register.

Das ist notwendig, da maschinelle Lernalgorithmen nur mit numerischen Daten arbeiten. Aus diesem Grund ist es notwendig, die kategoriale Spalte in eine numerische umzuwandeln.

get_dummies ist die Methode, die für jede kategoriale Variable eine Dummy-Variable erstellt.

Über den Autor

Ritika Singh | – Datenwissenschaftler

Ich bin von Beruf Data Scientist und Blogger aus Leidenschaft. Ich arbeite seit mehr als an Machine-Learning-Projekten 2 Jahre. Hier finden Sie Artikel zum Thema „Maschinelles Lernen“, Statistiken, Tiefes Lernen, NLP und Künstliche Intelligenz".

Verwandt

Kürzliche Posts

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.

Explorative Datenanalyse (EDA) von Anfang an

Inhalt

Einführung