Automatizza l'analisi esplorativa dei dati con questi 10 biblioteche

Contenuti

Tema da coprire

  1. Cos'è l'analisi esplorativa dei dati?
  2. Qual è la necessità di automatizzare l'analisi esplorativa dei dati?
  3. Librerie Python per automatizzare l'analisi esplorativa dei dati
Automatizzare l'immagine dell'analisi esplorativa dei dati

Analisi esplorativa dei dati

È una tecnica di esplorazione dei dati per comprendere i diversi aspetti dei dati. È una sorta di riassunto dei dati. È uno dei passaggi più importanti prima di svolgere qualsiasi attività di apprendimento automatico o apprendimento profondo.

Gli scienziati dei dati eseguono procedure di analisi esplorativa dei dati per esplorare, scomporre e riassumere le qualità fondamentali dei set di dati, utilizzando regolarmente approcci di rappresentazione delle informazioni. Le procedure di EDA prendono in considerazione un controllo convincente delle fonti di informazione, il che permette ai data scientist di scoprire le risposte appropriate di cui hanno bisogno trovando schemi informativi, rilevare incoerenze, verificare ipotesi o testare speculazioni.

I data scientist utilizzano l'analisi esplorativa dei dati per osservare quali set di dati possono rivelare oltre la presentazione convenzionale delle informazioni o assegnazioni di test di speculazione. Questo permette loro di acquisire informazioni dall'alto verso il basso sui fattori nei set di dati e le loro connessioni. L'analisi esplorativa dei dati può aiutare a riconoscere errori evidenti, distinguere le eccezioni nei set di dati, ottenere connessioni, scoprire elementi significativi, scopri schemi con informazioni privilegiate e fornisci nuove conoscenze.

36634steps20in20eda-7509206

Fasi dell'analisi esplorativa dei dati

Necessità di automatizzare l'analisi dei dati esplorativi

Il movimento ampliato dei clienti sul web, strumenti raffinati per controllare il traffico web, la moltiplicazione dei telefoni cellulari, i dispositivi abilitati al web e i sensori IoT sono gli elementi essenziali che accelerano il ritmo dell'era dell'informazione oggi. In quest'era computerizzata, le associazioni di tutte le dimensioni comprendono che le informazioni possono assumere un ruolo cruciale nel migliorare la loro competitività, redditività e abilità dinamiche, il che genera maggiori accordi, entrate e profitti.

Oggi, la maggior parte delle organizzazioni si avvicina a insiemi di dati immensi, tuttavia, avere solo grandi quantità di informazioni non migliora il business, a meno che le aziende non esplorino i dati disponibili e guidino lo sviluppo autorizzato.

21090automate-4296140

Nel ciclo di vita di un progetto di data science o di qualsiasi progetto di machine learning, più di 60% del tuo tempo si occupa di cose come l'analisi dei dati, selezione delle caratteristiche, ingegneria delle caratteristiche, eccetera. Poiché è la parte più importante o la spina dorsale di un progetto di data science, è quella parte particolare in cui devi svolgere molte attività come pulire i dati, gestire i valori mancanti , gestire i valori anomali, gestire insiemi di dati sbilanciati, come gestire le caratteristiche categoriali e molto altro. Quindi se vuoi risparmia il tuo tempo nell'analisi esplorativa dei dati, possiamo usare librerie Python come dtale, pandas profiling, sweetviz e autoviz per automatizzare le nostre attività.

Le librerie automatizzano l'analisi esplorativa dei dati

Le librerie automatizzano l'analisi esplorativa dei dati

In questo blog, abbiamo discusso quattro importanti librerie Python. Queste sono elencate di seguito:

  1. dtale
  2. pandas profiling
  3. sweetviz
  4. autoviz

D-tale

94595dtale-4740418

È una libreria lanciata a febbraio 2020 che ci permette di visualizzare facilmente il DataFrame di pandas. Ha molte caratteristiche molto utili per l'analisi esplorativa dei dati. È realizzata utilizzando il backend Flask e il frontend React. Supporta grafici interattivi, Grafica 3D, mappe di calore, la correlazione tra le caratteristiche, crea columnas personalizadas y muchos más. Es el más famoso y el favorito de todos.

Installazione

dtale se puede instalar usando el siguiente código:

pip install dtale

Análisis de datos exploratorios con D-tale

Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Primo, tenemos que escribir un código para lanzar la aplicación interactiva d-tale localmente:

import dtale
import pandas as pd
df = pd.read_csv('data.csv')
d = dtale.show(df)
d.open_browser()

Aquí estamos importando pandas y dtale. Estamos leyendo el conjunto de datos usando la función read_csv () y finalmente mostramos los datos en el navegador localmente usando la función mostrar y abrir el navegador.

Muestra los datos de la misma manera que lo hacen los pandas, ma ha una caratteristica aggiuntiva, ha un menu nell'angolo in alto a sinistra che ci permette di fare molte cose e mostra un conteggio delle colonne e delle righe nel nostro set di dati.

L'output del codice sopra è mostrato di seguito:

96961dtale-1-9308929

Se clicchi su qualsiasi intestazione di colonna, apparirà il menu a discesa. Ti offrirà molte opzioni, come ordinare i dati, descrivere il set di dati, analisi delle colonne e molto altro. Puoi anche verificare questa funzione da solo

88926dtale-2-6782316

Se clicchi su Descrivi, mostra l'analisi statistica della colonna selezionata come media, mediano, massimo, minimo, varianza, deviazione standard, quartili e molto altro.

49635dtale-3-5801855

Nello stesso modo, puoi provare altre funzioni da solo, come analisi delle colonne, formati, filtri.

La magia di dtale: clicca sul pulsante del menu e troverai tutte le opzioni disponibili

46757dtale-4-7849670

Non è possibile coprire tutte le funzionalità, ma sto coprendo quella più interessante.

Correlazioni – Ci mostra come le colonne sono correlate tra loro.

16581dtale-5-7074173

Grafica– Crea grafici personalizzati come grafici a linee, grafici a barre, grafici a torta, grafici a barre impilate, diagrammi a dispersione, mappe geologiche, eccetera.

42843dtale-6-9528345

Ci sono molte opzioni disponibili in questa libreria per l'analisi dei dati. Questo strumento è molto utile e rende l'analisi esplorativa dei dati molto più veloce rispetto all'uso di librerie tradizionali di machine learning come pandas, matplotlib, eccetera.

Per la documentazione ufficiale, controlla questo link:

dtale · PyPI

Profilazione di pandas

99350pp-1-9009235

Es una biblioteca de código abierto escrita en Python y generó informes HTML interactivos y describe varios aspectos del conjunto de datos. Las funcionalidades clave incluyen el manejo de valores perdidos, estadísticas de conjuntos de datos como media, moda, mediano, asimetría, deviazione standard, eccetera., gráficos como istogrammi y correlaciones también.

Installazione

La creación de perfiles de pandas se puede instalar usando el siguiente código:

pip install pandas-profiling

Análisis de datos exploratorios mediante la creación de perfiles de Pandas

Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Estoy usando un conjunto de datos de muestra para comenzar con la creación de perfiles de pandas, verifique el siguiente código:

#importing required packages
import pandas as pd
import pandas_profiling
import numpy as np

#importing the data
df = pd.read_csv('sample.csv')

#descriptive statistics
pandas_profiling.ProfileReport(df)

A continuación se muestra la salida mágica del código anterior

63765pp-2-6082533

Aquí está el resultado. Aparecerá un informe y devolverá cuántas variables hay en nuestro conjunto de datos, el número de filas, las celdas que faltan en el conjunto de datos, el porcentaje de celdas que faltan, el número y el porcentaje de filas duplicadas. Los datos de celdas faltantes y duplicadas son muy importantes para nuestro análisis, ya que describen la imagen más amplia del conjunto de datos. El informe también muestra el tamaño total de la memoria. También muestra los tipos de variables en el lado derecho de la salida.

La sección de variables muestra el análisis de una columna en particular. Ad esempio per il variabile Categorico, apparirà il seguente output.

74355pp-3-1515959

Per lui variabile numerica, apparirà il seguente output

20938pp-4-3730010

Fornisce un'analisi approfondita delle variabili numeriche come quartili, media, somma mediana, varianza, monotonicità, classifica, curtosi, intervallo interquartile e molto altro.

Correlazioni e interazioni: Descrive come le variabili si correlano tra loro tramite. Questi dati sono molto necessari per i data scientist.

78740pp-5-2528666

Per maggiori informazioni, consulta la documentazione ufficiale:

Sweetviz

È una libreria Python open source utilizzata per ottenere visualizzazioni, utile nell'analisi dei dati esplorativa con poche righe di codice. La libreria può essere utilizzata per visualizzare le variabili e confrontare il set di dati.

59830ss-1-6448515

Installazione

Questa libreria può essere installata utilizzando il seguente codice:

pip install sweetviz

Análisis de datos exploratorios con SweetViz

Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Estoy usando un conjunto de datos de muestra para comenzar, verifique el siguiente código

import sweetviz
import pandas as pd
df = pd.read_csv('sample.csv')
my_report = sweetviz.analyze([df,'Train'], target_feat="SalePrice")
my_report.show_html('FinalReport.html')

Reporte final:

11720ss-3-9401023

Per maggiori informazioni, consulta la documentazione ufficiale:

sweetviz · PyPI

Autoviz

Significa Visualizar automáticamente. La visualización es posible con cualquier tamaño del conjunto de datos con unas pocas líneas de código.

30449aa-1-5333852

Installazione

pip installare autoviz

Schermo

Código de muestra:

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df = AV. AutoViz('sample.csv')

Histograma de variable continua:

55308aa-2-6101477

Cornici per violino:

93794aa-3-1272429

Mappa di calore:

83495aa-4-6688390

Grafico a dispersione:

24780aa-5-8660564

Per maggiori informazioni, consulta la documentazione ufficiale:

autoviz · PyPI

Grazie per aver letto questo. se ti piace questo articolo, Condividi con i tuoi amici. In caso di qualsiasi suggerimento / dubbio, commenta qui sotto.
Identificazione e-mail: [e-mail protetta]
Seguimi su LinkedIn: LinkedIn

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.

Altoparlante dati