Datenbereinigung | Was ist Datenbereinigung??

Inhalt

Einführung

Was ist Datenbereinigung?? Entfernen von Nulldatensätzen, Entfernen unnötiger Spalten, die Behandlung fehlender Werte, Korrektur von unerwünschten Werten oder Ausreißern, Umstrukturierung der Daten, um sie in einem besser lesbaren Format zu bearbeiten, etc., es ist als Datenbereinigung bekannt.

19025Bild6-5033516

Eines der häufigsten Beispiele für die Datenbereinigung ist die Anwendung in Data Warehouses. Ein Data Warehouse speichert eine Reihe von Daten aus zahlreichen Quellen und optimiert sie für die Analyse, bevor eine Modellanpassung durchgeführt werden kann.

Datenbereinigung ist nicht nur das Entfernen vorhandener Informationen, um neue Informationen hinzuzufügen, aber einen Weg finden, die Genauigkeit eines Datensatzes zu maximieren, ohne notwendigerweise vorhandene Informationen aufzugeben. Unterschiedliche Arten von Daten erfordern unterschiedliche Arten der Bereinigung, aber denken Sie immer daran, dass die richtige Herangehensweise der entscheidende Faktor ist.

Nach dem Bereinigen der Daten, wird mit anderen ähnlichen Datensätzen im System konsistent.. Sehen wir uns die Schritte zum Bereinigen der Daten an;

Null-Datensätze löschen / Duplikate

Wenn in einer bestimmten Zeile eine erhebliche Datenmenge fehlt, Dann wäre es besser, diese Zeile zu löschen, da es unserem Modell keinen Mehrwert verleihen würde. kann den Wert unterstellen; einen geeigneten Ersatz für fehlende Daten bieten. Denken Sie auch daran, doppelte Werte immer zu löschen / redundant Ihres Datensatzes, da sie zu Verzerrungen in Ihrem Modell führen könnten.

Als Beispiel, Betrachten Sie den Schülerdatensatz mit den folgenden Datensätzen.

Name Spielstand Adresse Höhe Last
EIN 56 Gehe zu 165 56
B 45 Bombay 3 Fünfundsechzig
C 87 Delhi 170 58
D
mich 99 Mysore 167 60

Wie wir sehen, entspricht es dem Namen des Schülers “D”, die meisten Daten fehlen, deshalb, wir verwerfen diese spezielle Zeile.

student_df.dropna() # lässt Zeilen fallen mit 1 oder mehr Nan-Wert

#Produktion

Name Spielstand Adresse Höhe Last
EIN 56 Gehe zu 165 56
B 45 Bombay 3 Fünfundsechzig
C 87 Delhi 170 58
mich 99 Mysore 167 60

Löschen Sie unnötige Spalten

Wenn wir Daten von Interessenten erhalten, im Allgemeinen ist es riesig. Möglicherweise gibt es einen Datensatz, der unserem Modell möglicherweise keinen Mehrwert verleiht. Es ist besser, diese Daten zu löschen, da dies mit wertvollen Ressourcen wie Speicher und Verarbeitungszeit erledigt wäre.

Als Beispiel, Beobachten der Schülerleistung bei einem Test, das Gewicht oder die Größe der Schüler haben nichts zum Modell beizutragen.

student_df.drop(['Höhe','Last'], Achse = 1,inplace=True) #Drops Height Spalte aus dem Datenrahmen

#Produktion

Name Spielstand Adresse
EIN 56 Gehe zu
B 45 Bombay
C 87 Delhi
mich 99 Mysore

Spalten umbenennen

Es ist immer am besten, die Spalten umzubenennen und sie in das lesbarste Format zu formatieren, das sowohl der Datenwissenschaftler als auch das Unternehmen verstehen können.. Als Beispiel, im Schülerdatensatz, Spalte umbenennen “Name” Was “Sudent_Name” macht Sinn.

student_df.rename(Spalten={'Name': 'Name des Studenten'}, inplace=Wahr) #benennt die Namensspalte in Student_Name um

#Produktion

Name des Studenten Spielstand Adresse
EIN 56 Gehe zu
B 45 Bombay
C 87 Delhi
mich 99 Mysore

Umgang mit fehlenden Werten

Es gibt viele Alternativen, um fehlende Werte in einem Datensatz zu berücksichtigen. Es liegt am Data Scientist und dem vorliegenden Datensatz, die am besten geeignete Methode auszuwählen. Die am häufigsten verwendeten Methoden sind die Imputation des Datensatzes mit Mittelwert, Durchschnitt oder Mode. Löschen dieser bestimmten Datensätze mit einem oder mehreren fehlenden Werten und, in manchen Fällen, Das Erstellen von Algorithmen für maschinelles Lernen wie lineare Regression und nächster Nachbar K wird auch verwendet, um mit fehlenden Werten umzugehen.

Name des Studenten Spielstand Adresse
EIN 56 Gehe zu
B 45 Bombay
C Delhi
mich 99 Mysore
Student_df['col_name'].Fillna((Student_df['col_name'].bedeuten()), inplace=Wahr) # Na-Werte in col_name werden durch Mittelwert ersetzt

#Produktion

Name des Studenten Spielstand Adresse
EIN 96 Gehe zu
B 45 Bombay
C 66 Delhi
mich 99 Mysore

Erkennung atypischer Werte

Ausreißer können im Datensatz als Rauschen betrachtet werden. Ausreißer können mehrere Gründe haben, als Dateneingabefehler, Fehlerhandbuch, Fehler experimentell, etc.

Als Beispiel, im folgenden Beispiel, Schülernote “B” du betrittst 130, was eindeutig nicht richtig ist.

Name des Studenten Spielstand Adresse Höhe Last
EIN 56 Gehe zu 165 56
B 45 Bombay 3 Fünfundsechzig
C 66 Delhi 170 58
mich 99 Mysore 167 60

Das Auftragen der Höhe auf einem Boxplot ergibt das folgende Ergebnis

18216Bild5-6646427

Nicht alle Extremwerte sind Ausreißer, einige können auch zu interessanten Entdeckungen führen, aber das ist ein Thema für einen anderen Tag. Tests wie der Z-Score-Test können verwendet werden, der Boxplot oder das einfache Zeichnen der Daten in der Grafik werden die Ausreißer aufdecken.

Reform / die Daten umstrukturieren

Die meisten Geschäftsdaten, die dem Datenwissenschaftler zur Verfügung gestellt werden, liegen nicht im lesbarsten Format vor. Unsere Aufgabe ist es, die Daten umzuformen und in ein Format zu bringen, das für die Analyse verwendet werden kann.. Als Beispiel, aus bestehenden Variablen eine neue Variable erstellen oder kombinieren 2 oder mehr Variablen.

Fußnoten

Sicherlich, Es gibt viele Vorteile, mit sauberen Daten zu arbeiten, einige davon sind die verbesserte Genauigkeit der Modelle, bessere Entscheidungsfindung durch Stakeholder, die einfache Modellimplementierung und Parameteranpassung, Zeit und Ressourcen sparen, und viele mehr. Denken Sie immer daran, die Daten als ersten und wichtigsten Schritt zu bereinigen, bevor Sie ein Modell anpassen.

Verweise

https://realpython.com/

https://www.geeksforgeeks.org/

Die in diesem Beitrag gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.