Ingegneria delle funzioni passo dopo passo

Contenuti

introduzione

importanza-of-feature-engineering-in-datahack-concorsi-6888452

Sommario

  1. Perché dovremmo usare l'ingegneria delle funzioni nella scienza dei dati??
  2. Selezione delle funzioni
  3. Gestione dei valori mancanti
  4. Gestione dei dati sbilanciati
  5. Gestione degli outlier
  6. Binning
  7. codifica
  8. Scala delle funzioni

1. Perché dovremmo usare l'ingegneria delle funzioni nella scienza dei dati??

En Data Science, le prestazioni del modello dipendono dalla pre-elaborazione e dalla gestione dei dati. Supponiamo che se costruiamo un modello senza la gestione dei dati, otteniamo una precisione di circa 70%. Applicando l'ingegneria delle funzioni sullo stesso modello, c'è la possibilità di aumentare le prestazioni del 70% di più.

Semplicemente, quando si utilizza l'ingegneria delle funzioni, miglioriamo le prestazioni del modello.

2. Selezione delle funzioni

La selezione delle funzioni non è altro che una selezione delle necessarie funzioni indipendenti. La selezione delle caratteristiche indipendenti importanti che sono maggiormente correlate alla caratteristica dipendente aiuterà a costruire un buon modello.. Esistono alcuni metodi per selezionare le funzioni:

2.1 Matrice di correlazione con mappa termica

Il mappa di calore es una representación gráfica de datos 2D (bidimensionale). Ogni valore dei dati è rappresentato in un array.

Primo, disegnare il grafico delle coppie tra tutte le caratteristiche indipendenti e le caratteristiche dipendenti. Darà la relazione tra caratteristiche dipendenti e indipendenti. La relazione tra la caratteristica indipendente e la caratteristica dipendente è minore di 0.2, quindi scegli quella caratteristica indipendente per costruire un modello.

953241-8931125

2.2 Selezione univariata

In questo, i test statistici possono essere utilizzati per selezionare le caratteristiche indipendenti che hanno la relazione più forte con la caratteristica dipendente. Seleziona KBest Il metodo può essere utilizzato con una serie di diversi test statistici per selezionare un numero specifico di caratteristiche.

225322-3258208
194213-4864398
  • La caratteristica che ha il punteggio più alto sarà più correlata alla caratteristica dipendente e sceglierà quelle caratteristiche per il modello.

2.3 Metodo ExtraTreesClassifier

In questo metodo, il metodo ExtraTreesClassifier aiuterà a dare l'importanza di ogni caratteristica indipendente con una caratteristica dipendente. L'importanza del ruolo ti darà un punteggio per ogni ruolo nei tuoi dati, più alto è il punteggio, más importante o relevante para la función con respecto a su variabile de salida.

780774-2551883
924605-4264414

3. Gestione dei valori mancanti

In alcuni set di dati, abbiamo ottenuto i valori di NA nelle caratteristiche. Mancano solo dati. Per gestire questo tipo di dati ci sono molti modi:

  • Nei luoghi dei valori perduti, para reemplazar los valores perdidos con la media o mediano en los datos numéricos y para los datos categóricos con la moda.
458796-5086083
  • Elimina i valori NA in intere righe.
341087-2368081
  • Elimina i valori NA per funzionalità complete. (aiuta se i valori di NA sono superiori a 50% in una funzione)
963308-9197745
  • Sostituisci i valori NA con 0.
560829-5765615

Se scegli di scartare le opzioni, c'è la possibilità di perdere informazioni importanti da loro. Quindi è meglio scegliere di sostituire le opzioni.

4. Gestione dei dati sbilanciati

Perché è necessario gestire dati sbilanciati? A causa di ridurre il problema di sovradattamento e disadattamento.

supponiamo una caratteristica ha un fattore level2 (0 e 1). consiste di 1 è 5% e 0 è 95%. Si chiamano dati sbilanciati.

Esempio:-

7333210-1974615

Per prevenire questo problema, ci sono alcuni metodi:

4.1 Classe di maggioranza sottocampionata

Un sottocampionamento della classe di maggioranza ricampionerà i punti della classe di maggioranza nei dati per renderli uguali alla classe di minoranza.

8541811-8269732

4.2 Duplicazione sovracampionamento classe di minoranza

Il sovracampionamento della classe di minoranza ricampionerà i punti della classe di minoranza nei dati per renderli uguali alla classe di maggioranza.

8171312-9391373

4.3 Sovracampionamento della classe di minoranza utilizzando la tecnica del sovracampionamento sintetico di minoranza (SMOTE)

In questo metodo, vengono generati campioni sintetici per la classe di minoranza e uguali alla classe di maggioranza.

4998913-5701817

5. Gestione degli outlier

Primo, calcola l'asimmetria delle caratteristiche e controlla se sono distorte positivamente, negativamente o normalmente di parte. Un altro metodo consiste nel tracciare il box plot sulle caratteristiche e verificare se un valore è fuori limite o meno.. se esistono, sono chiamati outlier.

7193414-3602537

come gestire questi valori anomali?: –

Primo, calcolare i valori dei quantili a 25% e 75%.

8737115-2563705
  • prossimo, calcolare l'intervallo interquartile

IQR = Q3 – Q1

1178816-3559397
  • Prossimo, calcolare i valori degli estremi superiore e inferiore.

estremità inferiore = Q1 – 1,5 * IQR

estremità superiore = Q3– 1,5 * IQRe

9813417-8409527
  • finalmente, controlla che i valori siano al di sopra del limite superiore o al di sotto del limite inferiore. se si presenta, rimuoverli o sostituirli con la calza, la mediana o qualsiasi valore quantile.
  • Sostituisci gli outlier con mean
4137018-2718517
  • Sostituisci valori anomali con valori quantili
9596719-4220187
5643320-3385882

6. Binning

Il raggruppamento non è altro che qualsiasi valore di dati all'interno dell'intervallo che si adatta al cestino. È importante nella tua attività di esplorazione dei dati. Normalmente lo usiamo per trasformare le variabili continue in discrete..

Supponiamo che se abbiamo la funzione ETÀ continuamente e dobbiamo dividere l'età in gruppi come una funzione, allora sarà utile.

8629321-8977454

7. codifica:

Perché questo si applica?? perché nei set di dati possiamo contenere tipi di dati di oggetti. per costruire un modello, abbiamo bisogno che tutte le funzionalità siano in tipi di dati interi. così, Label Encoder e OneHotEncoder vengono utilizzati per convertire il tipo di dati dell'oggetto in un tipo di dati intero.

9572922-7746688

Prima di applicare la codifica dei tag

4483023-6484144
1144524-9472054

Dopo aver applicato la codifica dei tag, applica il metodo del trasformatore di colonna per convertire le etichette in 0 e 1

5214325-1367715

Al aplicar get_dummies, convertiamo direttamente da categorico a numerico

1468326-3386882

8. Scala delle funzioni

Perché viene applicata questa scala?? perché per ridurre l'effetto della varianza e superare il problema dell'adattamento. ci sono due tipi di metodi di ridimensionamento:

8.1 Standardizzazione

Quando viene utilizzato questo metodo? ?. quando tutte le caratteristiche hanno valori alti, no 0 e 1.

È una tecnica per standardizzare le caratteristiche indipendenti che si verificano in un intervallo fisso per portare tutti i valori alle stesse grandezze..

5627627-7112131

Nella standardizzazione, la media delle caratteristiche indipendenti è 0 e la deviazione standard è 1.

Metodo 1:

1517028-4794777
1602029-9839686

Metodo 2:

6623530-8889788

Dopo la codifica, le etichette delle caratteristiche sono attive 0 e 1. Questo può influenzare la standardizzazione. Per superare questo, noi usiamo Normalizzazione.

8.2 Normalizzazione

La normalización también hace que el proceso de addestramento sea menos sensible por la escala de las características. Ciò si traduce nell'ottenimento di coefficienti migliori dopo l'allenamento..

9710531-6241503

Metodo 1: -MinMaxScaler

È un metodo per ridimensionare la caratteristica a una gamma rapida e rigorosa di [0,1] sottraendo il valore minimo della caratteristica e quindi dividendo per l'intervallo.

4247132-3737407
6890033-7357998

Metodo 2: – Normalizzazione media

È un metodo per ridimensionare la caratteristica a una gamma rapida e rigorosa di [-1,1] con media = 0.

2341734-1886395
43212screenshot2039-8683522
7337735-2828581

Note finali: –

In questo articolo, Ho seguito passo passo il processo di ingegneria delle funzioni. Questo è molto utile per aumentare la precisione della previsione..

Tieni presente che non esistono metodi particolari per aumentare la precisione della tua previsione. Tutto dipende dai tuoi dati e applica più metodi.

Come prossimo passo, Ti incoraggio a provare diversi set di dati e ad analizzarli. E non dimenticare di condividere le tue idee nella sezione commenti qui sotto!!

Circa l'autore:

Soia Pavan Kumar Reddy Elluru. Ho completato la mia laurea presso il G.Pullareddy Engineering College nell'anno 2020. Sono un data scientist certificato nell'anno 2021 y me apasiona el aprendizaje automático y los proyectos de apprendimento profondo.

Per favore, scrivimi in caso di domande o solo per salutare.

Identificazione e-mail:- [e-mail protetta]

Identificazione Linkedin:www.linkedin.com/in/elluru-pavan-kumar-reddy-a1b183197

ID di Github: – pawankumarreddy1999 (Pavan Kumar Reddy Elluru) (github.com)

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.