Pulizia dei dati | Cos'è la pulizia dei dati??

Contenuti

introduzione

Cos'è la pulizia dei dati?? Rimozione di record nulli, rimozione di colonne non necessarie, il trattamento dei valori mancanti, rettifica di valori indesiderati o valori anomali, ristrutturare i dati per modificarli in un formato più leggibile, eccetera., è noto come pulizia dei dati.

19025pic6-5033516

Uno degli esempi più comuni di pulizia dei dati è la sua applicazione nei data warehouse. Un data warehouse memorizza una serie di dati provenienti da numerose fonti e li ottimizza per l'analisi prima che possa essere eseguito qualsiasi adattamento del modello.

La pulizia dei dati non consiste solo nel rimuovere le informazioni esistenti per aggiungerne di nuove, ma trova un modo per massimizzare l'accuratezza di un set di dati senza necessariamente rinunciare alle informazioni esistenti. Diversi tipi di dati richiederanno diversi tipi di pulizia, ma ricorda sempre che il giusto approccio è il fattore decisivo.

Dopo aver pulito i dati, diventerà coerente con altri set di dati simili nel sistema.. Vediamo i passaggi per pulire i dati;

Cancella record nulli / duplicati

Se in una determinata riga mancano una quantità significativa di dati, allora sarebbe meglio eliminare quella riga, poiché non aggiungerebbe alcun valore al nostro modello. può imputare il valore; fornire un sostituto appropriato per i dati mancanti. Ricorda anche di cancellare sempre i valori duplicati / ridondante del tuo set di dati, poiché potrebbero causare un pregiudizio nel tuo modello.

Come esempio, considerare il set di dati dello studente con i seguenti record.

Nome punto Indirizzo altezza il peso
UN 56 Vai a 165 56
B 45 Bombay 3 Sessantacinque
C 87 Delhi 170 58
D
me 99 Mysore 167 60

Come si vede corrisponde al nome dello studente “D”, la maggior parte dei dati è mancante, perché, scartiamo quella particolare riga.

student_df.dropna() # elimina righe con 1 o più valore Nan

#produzione

Nome punto Indirizzo altezza il peso
UN 56 Vai a 165 56
B 45 Bombay 3 Sessantacinque
C 87 Delhi 170 58
me 99 Mysore 167 60

Elimina le colonne non necessarie

Quando riceviamo dati da soggetti interessati, in generale è enorme. Potrebbe esserci un record di dati che potrebbe non aggiungere alcun valore al nostro modello. È meglio cancellare questi dati, poiché lo farebbe con risorse preziose come memoria e tempo di elaborazione.

Come esempio, osservare le prestazioni degli studenti in un test, il peso o l'altezza degli studenti non hanno nulla a che fare con il modello.

studente_df.drop(['altezza','il peso'], asse = 1, posto = vero) #La colonna Drops Height forma il dataframe

#Produzione

Nome punto Indirizzo
UN 56 Vai a
B 45 Bombay
C 87 Delhi
me 99 Mysore

Rinomina colonne

È sempre meglio rinominare le colonne e formattarle nel formato più leggibile che sia il data scientist che l'azienda possano comprendere.. Come esempio, nel set di dati dello studente, rinomina colonna “Nome” Che cosa “Nome_Sudent” ha senso.

student_df.rename(colonne={'nome': 'Nome dello studente'}, inplace=Vero) #rinomina la colonna del nome in Student_Name

#Produzione

Nome dello studente punto Indirizzo
UN 56 Vai a
B 45 Bombay
C 87 Delhi
me 99 Mysore

Gestire i valori mancanti

Esistono molte alternative per prendersi cura dei valori mancanti in un set di dati. Spetta allo scienziato dei dati e al set di dati a disposizione selezionare il metodo più appropriato. I metodi più utilizzati sono l'imputazione del set di dati con media, nella media o alla moda. Eliminazione di quei record particolari con uno o più valori mancanti e, in alcuni casi, anche la creazione di algoritmi di apprendimento automatico come la regressione lineare e il vicino più prossimo K viene utilizzata per gestire i valori mancanti.

Nome dello studente punto Indirizzo
UN 56 Vai a
B 45 Bombay
C Delhi
me 99 Mysore
Student_df['col_name'].riempire((Student_df['col_name'].Significare()), inplace=Vero) # I valori Na in col_name sono sostituiti con mean

#Produzione

Nome dello studente punto Indirizzo
UN 96 Vai a
B 45 Bombay
C 66 Delhi
me 99 Mysore

Rilevamento di valori atipici

I valori anomali possono essere considerati rumore nel set di dati. Ci possono essere diverse ragioni per i valori anomali, come errore di immissione dei dati, errore manuale, errore sperimentale, eccetera.

Come esempio, nel seguente esempio, punteggio dello studente “B” tu entri 130, che chiaramente non è corretto.

Nome dello studente punto Indirizzo altezza il peso
UN 56 Vai a 165 56
B 45 Bombay 3 Sessantacinque
C 66 Delhi 170 58
me 99 Mysore 167 60

Tracciare l'altezza su un box plot dà il seguente risultato

18216pic5-6646427

Non tutti i valori estremi sono valori anomali, alcuni possono anche portare a scoperte interessanti, ma questo è un argomento per un altro giorno. È possibile utilizzare test come il test del punteggio Z, il box plot o semplicemente tracciando i dati sul grafico riveleranno i valori anomali.

Riforma / ristrutturare i dati

La maggior parte dei dati aziendali forniti al data scientist non è nel formato più leggibile. È nostro compito rimodellare i dati e portarli in un formato che possa essere utilizzato per l'analisi.. Come esempio, creazione di una nuova variabile da variabili esistenti o combinazione 2 o più variabili.

Note a piè di pagina

Certamente, ci sono molti vantaggi nel lavorare con dati puliti, pochi dei quali sono la migliorata precisione dei modelli, migliore processo decisionale da parte delle parti interessate, la facilità di implementazione del modello e la regolazione dei parametri, risparmiando tempo e risorse, e molti altri. Ricorda sempre di pulire i dati come primo e più importante passo prima di montare qualsiasi modello.

Riferimenti

https://realpython.com/

https://www.geeksforgeeks.org/

Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.