Big Data

Datenbereinigung | Was ist Datenbereinigung??

Einführung

Was ist Datenbereinigung?? Entfernen von Nulldatensätzen, Entfernen unnötiger Spalten, die Behandlung fehlender Werte, Korrektur von unerwünschten Werten oder Ausreißern, Umstrukturierung der Daten, um sie in einem besser lesbaren Format zu bearbeiten, etc., es ist als Datenbereinigung bekannt.

Eines der häufigsten Beispiele für die Datenbereinigung ist die Anwendung in Data Warehouses. Ein Data Warehouse speichert eine Reihe von Daten aus zahlreichen Quellen und optimiert sie für die Analyse, bevor eine Modellanpassung durchgeführt werden kann.

Datenbereinigung ist nicht nur das Entfernen vorhandener Informationen, um neue Informationen hinzuzufügen, aber einen Weg finden, die Genauigkeit eines Datensatzes zu maximieren, ohne notwendigerweise vorhandene Informationen aufzugeben. Unterschiedliche Arten von Daten erfordern unterschiedliche Arten der Bereinigung, aber denken Sie immer daran, dass die richtige Herangehensweise der entscheidende Faktor ist.

Nach dem Bereinigen der Daten, wird mit anderen ähnlichen Datensätzen im System konsistent.. Sehen wir uns die Schritte zum Bereinigen der Daten an;

Null-Datensätze löschen / Duplikate

Wenn in einer bestimmten Zeile eine erhebliche Datenmenge fehlt, Dann wäre es besser, diese Zeile zu löschen, da es unserem Modell keinen Mehrwert verleihen würde. kann den Wert unterstellen; einen geeigneten Ersatz für fehlende Daten bieten. Denken Sie auch daran, doppelte Werte immer zu löschen / redundant Ihres Datensatzes, da sie zu Verzerrungen in Ihrem Modell führen könnten.

Als Beispiel, Betrachten Sie den Schülerdatensatz mit den folgenden Datensätzen.

Name	Spielstand	Adresse	Höhe	Last
EIN	56	Gehe zu	165	56
B	45	Bombay	3	Fünfundsechzig
C	87	Delhi	170	58
D
mich	99	Mysore	167	60

Wie wir sehen, entspricht es dem Namen des Schülers „D“, die meisten Daten fehlen, deshalb, wir verwerfen diese spezielle Zeile.

student_df.dropna() # lässt Zeilen fallen mit 1 oder mehr Nan-Wert

#Produktion

Name	Spielstand	Adresse	Höhe	Last
EIN	56	Gehe zu	165	56
B	45	Bombay	3	Fünfundsechzig
C	87	Delhi	170	58
mich	99	Mysore	167	60

Löschen Sie unnötige Spalten

Wenn wir Daten von Interessenten erhalten, im Allgemeinen ist es riesig. Möglicherweise gibt es einen Datensatz, der unserem Modell möglicherweise keinen Mehrwert verleiht. Es ist besser, diese Daten zu löschen, da dies mit wertvollen Ressourcen wie Speicher und Verarbeitungszeit erledigt wäre.

Als Beispiel, Beobachten der Schülerleistung bei einem Test, das Gewicht oder die Größe der Schüler haben nichts zum Modell beizutragen.

student_df.drop(['Höhe','Last'], Achse = 1,inplace=True) #Drops Height Spalte aus dem Datenrahmen

#Produktion

Name	Spielstand	Adresse
EIN	56	Gehe zu
B	45	Bombay
C	87	Delhi
mich	99	Mysore

Spalten umbenennen

Es ist immer am besten, die Spalten umzubenennen und sie in das lesbarste Format zu formatieren, das sowohl der Datenwissenschaftler als auch das Unternehmen verstehen können.. Als Beispiel, im Schülerdatensatz, Spalte umbenennen „Name“ Was „Sudent_Name“ macht Sinn.

student_df.rename(Spalten={'Name': 'Name des Studenten'}, inplace=Wahr) #benennt die Namensspalte in Student_Name um

#Produktion

Name des Studenten	Spielstand	Adresse
EIN	56	Gehe zu
B	45	Bombay
C	87	Delhi
mich	99	Mysore

Umgang mit fehlenden Werten

Es gibt viele Alternativen, um fehlende Werte in einem Datensatz zu berücksichtigen. Es liegt am Data Scientist und dem vorliegenden Datensatz, die am besten geeignete Methode auszuwählen. Die am häufigsten verwendeten Methoden sind die Imputation des Datensatzes mit Mittelwert, MedianDer Median ist ein statistisches Maß, das den zentralen Wert eines Satzes geordneter Daten darstellt. Um es zu berechnen, Die Daten werden von der niedrigsten zur höchsten sortiert und die Zahl in der Mitte wird identifiziert. Wenn es eine gerade Anzahl von Beobachtungen gibt, Die beiden Kernwerte werden gemittelt. Dieser Indikator ist besonders nützlich bei asymmetrischen Verteilungen, da es nicht von Extremwerten beeinflusst wird.... o moda. Löschen dieser bestimmten Datensätze mit einem oder mehreren fehlenden Werten und, in manchen Fällen, Das Erstellen von Algorithmen für maschinelles Lernen wie lineare Regression und nächster Nachbar K wird auch verwendet, um mit fehlenden Werten umzugehen.

Name des Studenten	Spielstand	Adresse
EIN	56	Gehe zu
B	45	Bombay
C		Delhi
mich	99	Mysore

Student_df['col_name'].Fillna((Student_df['col_name'].bedeuten()), inplace=Wahr) # Na-Werte in col_name werden durch Mittelwert ersetzt

#Produktion

Name des Studenten	Spielstand	Adresse
EIN	96	Gehe zu
B	45	Bombay
C	66	Delhi
mich	99	Mysore

Erkennung atypischer Werte

Ausreißer können im Datensatz als Rauschen betrachtet werden. Ausreißer können mehrere Gründe haben, als Dateneingabefehler, Fehlerhandbuch, Fehler experimentell, etc.

Als Beispiel, im folgenden Beispiel, Schülernote „B“ du betrittst 130, was eindeutig nicht richtig ist.

Name des Studenten	Spielstand	Adresse	Höhe	Last
EIN	56	Gehe zu	165	56
B	45	Bombay	3	Fünfundsechzig
C	66	Delhi	170	58
mich	99	Mysore	167	60

Das Auftragen der Höhe auf einem Boxplot ergibt das folgende Ergebnis

Nicht alle Extremwerte sind Ausreißer, einige können auch zu interessanten Entdeckungen führen, aber das ist ein Thema für einen anderen Tag. Tests wie der Z-Score-Test können verwendet werden, der Boxplot oder das einfache Zeichnen der Daten in der Grafik werden die Ausreißer aufdecken.

Reform / die Daten umstrukturieren

Die meisten Geschäftsdaten, die dem Datenwissenschaftler zur Verfügung gestellt werden, liegen nicht im lesbarsten Format vor. Unsere Aufgabe ist es, die Daten umzuformen und in ein Format zu bringen, das für die Analyse verwendet werden kann.. Als Beispiel, creando una nueva VariableIn Statistik und Mathematik, ein "Variable" ist ein Symbol, das einen Wert darstellt, der sich ändern oder variieren kann. Es gibt verschiedene Arten von Variablen, und qualitativ, die nicht-numerische Eigenschaften beschreiben, und quantitative, numerische Größen darstellen. Variablen sind grundlegend in Experimenten und Studien, da sie die Analyse von Beziehungen und Mustern zwischen verschiedenen Elementen ermöglichen, das Verständnis komplexer Phänomene zu erleichtern.... a partir de las variables existentes o combinando 2 oder mehr Variablen.

Fußnoten

Sicherlich, Es gibt viele Vorteile, mit sauberen Daten zu arbeiten, einige davon sind die verbesserte Genauigkeit der Modelle, bessere Entscheidungsfindung durch Stakeholder, la facilidad de implementación del modelo y el ajuste de ParameterDas "Parameter" sind Variablen oder Kriterien, die zur Definition von, ein Phänomen oder System zu messen oder zu bewerten. In verschiedenen Bereichen wie z.B. Statistik, Informatik und naturwissenschaftliche Forschung, Parameter sind entscheidend für die Etablierung von Normen und Standards, die die Datenanalyse und -interpretation leiten. Ihre richtige Auswahl und Handhabung sind entscheidend, um genaue und relevante Ergebnisse in jeder Studie oder jedem Projekt zu erhalten...., Zeit und Ressourcen sparen, und viele mehr. Denken Sie immer daran, die Daten als ersten und wichtigsten Schritt zu bereinigen, bevor Sie ein Modell anpassen.

Verweise

https://realpython.com/

https://www.geeksforgeeks.org/

Die in diesem Beitrag gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Verwandt

Kürzliche Posts

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.

Datenbereinigung | Was ist Datenbereinigung??

Inhalt

Einführung

Null-Datensätze löschen / Duplikate

Löschen Sie unnötige Spalten

Spalten umbenennen

Umgang mit fehlenden Werten

Erkennung atypischer Werte

Reform / die Daten umstrukturieren

Fußnoten

Verweise

Verwandt

Kürzliche Posts

Künstliche Intelligenz im Video: Wie neue Technologien die Videoproduktion verändern?

IT-Profile, die Sie berücksichtigen sollten

So zeichnen Sie einen Bildschirm auf einem Windows-Computer auf?

¿Kennen Sie die Dienstaltersstufen?

Finden Sie hier Ihre besten Schleifringe und Drehdurchführungen

Positionsagentur: Vorteile des Linkaufbaus für einen Online-Shop

Abonniere unseren Newsletter

Spiele

Marken

Geschäft

Sprachen

Datenbereinigung | Was ist Datenbereinigung??

Inhalt

Einführung

Null-Datensätze löschen / Duplikate

Löschen Sie unnötige Spalten

Spalten umbenennen

Umgang mit fehlenden Werten

Erkennung atypischer Werte

Reform / die Daten umstrukturieren

Fußnoten

Verweise

Verwandt

zusammenhängende Posts:

Kürzliche Posts

Künstliche Intelligenz im Video: Wie neue Technologien die Videoproduktion verändern?

IT-Profile, die Sie berücksichtigen sollten

So zeichnen Sie einen Bildschirm auf einem Windows-Computer auf?

¿Kennen Sie die Dienstaltersstufen?

Finden Sie hier Ihre besten Schleifringe und Drehdurchführungen

Positionsagentur: Vorteile des Linkaufbaus für einen Online-Shop

Abonniere unseren Newsletter

Spiele

Marken

Geschäft

Sprachen