Tema da coprire
- Cos'è l'analisi esplorativa dei dati?
- Qual è la necessità di automatizzare l'analisi esplorativa dei dati?
- Librerie Python per automatizzare l'analisi esplorativa dei dati
Analisi esplorativa dei dati
È una tecnica di esplorazione dei dati per comprendere i diversi aspetti dei dati. È una sorta di riassunto dei dati. È uno dei passaggi più importanti prima di svolgere qualsiasi attività di apprendimento automatico o apprendimento profondoApprendimento profondo, Una sottodisciplina dell'intelligenza artificiale, si affida a reti neurali artificiali per analizzare ed elaborare grandi volumi di dati. Questa tecnica consente alle macchine di apprendere modelli ed eseguire compiti complessi, come il riconoscimento vocale e la visione artificiale. La sua capacità di migliorare continuamente man mano che vengono forniti più dati lo rende uno strumento chiave in vari settori, dalla salute....
Gli scienziati dei dati eseguono procedure di analisi esplorativa dei dati per esplorare, scomporre e riassumere le qualità fondamentali dei set di dati, utilizzando regolarmente approcci di rappresentazione delle informazioni. Le procedure di EDA prendono in considerazione un controllo convincente delle fonti di informazione, il che permette ai data scientist di scoprire le risposte appropriate di cui hanno bisogno trovando schemi informativi, rilevare incoerenze, verificare ipotesi o testare speculazioni.
I data scientist utilizzano l'analisi esplorativa dei dati per osservare quali set di dati possono rivelare oltre la presentazione convenzionale delle informazioni o assegnazioni di test di speculazione. Questo permette loro di acquisire informazioni dall'alto verso il basso sui fattori nei set di dati e le loro connessioni. L'analisi esplorativa dei dati può aiutare a riconoscere errori evidenti, distinguere le eccezioni nei set di dati, ottenere connessioni, scoprire elementi significativi, scopri schemi con informazioni privilegiate e fornisci nuove conoscenze.

Fasi dell'analisi esplorativa dei dati
Necessità di automatizzare l'analisi dei dati esplorativi
Il movimento ampliato dei clienti sul web, strumenti raffinati per controllare il traffico web, la moltiplicazione dei telefoni cellulari, i dispositivi abilitati al web e i sensori IoT sono gli elementi essenziali che accelerano il ritmo dell'era dell'informazione oggi. In quest'era computerizzata, le associazioni di tutte le dimensioni comprendono che le informazioni possono assumere un ruolo cruciale nel migliorare la loro competitività, redditività e abilità dinamiche, il che genera maggiori accordi, entrate e profitti.
Oggi, la maggior parte delle organizzazioni si avvicina a insiemi di dati immensi, tuttavia, avere solo grandi quantità di informazioni non migliora il business, a meno che le aziende non esplorino i dati disponibili e guidino lo sviluppo autorizzato.

Nel ciclo di vita di un progetto di data science o di qualsiasi progetto di machine learning, più di 60% del tuo tempo si occupa di cose come l'analisi dei dati, selezione delle caratteristiche, ingegneria delle caratteristiche, eccetera. Poiché è la parte più importante o la spina dorsale di un progetto di data science, è quella parte particolare in cui devi svolgere molte attività come pulire i dati, gestire i valori mancanti , gestire i valori anomali, gestire insiemi di dati sbilanciati, come gestire le caratteristiche categoriali e molto altro. Quindi se vuoi risparmia il tuo tempo nell'analisi esplorativa dei dati, possiamo usare librerie Python come dtale, pandas profiling, sweetviz e autoviz per automatizzare le nostre attività.
Le librerie automatizzano l'analisi esplorativa dei dati
In questo blog, abbiamo discusso quattro importanti librerie Python. Queste sono elencate di seguito:
- dtale
- pandas profiling
- sweetviz
- autoviz
D-tale

È una libreria lanciata a febbraio 2020 che ci permette di visualizzare facilmente il DataFrame di pandas. Ha molte caratteristiche molto utili per l'analisi esplorativa dei dati. È realizzata utilizzando il backend Flask e il frontend React. Supporta grafici interattivi, Grafica 3D, mappe di calore, la correlazione tra le caratteristiche, crea columnas personalizadas y muchos más. Es el más famoso y el favorito de todos.
Installazione
dtale se puede instalar usando el siguiente código:
pip install dtale
Análisis de datos exploratorios con D-tale
Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Primo, tenemos que escribir un código para lanzar la aplicación interactiva d-tale localmente:
import dtale
import pandas as pd
df = pd.read_csv('data.csv')
d = dtale.show(df)
d.open_browser()
Aquí estamos importando pandas y dtale. Estamos leyendo el conjunto de datos usando la función read_csv () y finalmente mostramos los datos en el navegador localmente usando la función mostrar y abrir el navegador.
Muestra los datos de la misma manera que lo hacen los pandas, ma ha una caratteristica aggiuntiva, ha un menu nell'angolo in alto a sinistra che ci permette di fare molte cose e mostra un conteggio delle colonne e delle righe nel nostro set di dati.
L'output del codice sopra è mostrato di seguito:

Se clicchi su qualsiasi intestazione di colonna, apparirà il menu a discesa. Ti offrirà molte opzioni, come ordinare i dati, descrivere il set di dati, analisi delle colonne e molto altro. Puoi anche verificare questa funzione da solo

Se clicchi su Descrivi, mostra l'analisi statistica della colonna selezionata come media, medianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi...., massimo, minimo, varianza, deviazione standard, quartili e molto altro.

Nello stesso modo, puoi provare altre funzioni da solo, come analisi delle colonne, formati, filtri.
La magia di dtale: clicca sul pulsante del menu e troverai tutte le opzioni disponibili

Non è possibile coprire tutte le funzionalità, ma sto coprendo quella più interessante.
Correlazioni – Ci mostra come le colonne sono correlate tra loro.

Grafica– Crea grafici personalizzati come grafici a linee, grafici a barre, grafici a torta, grafici a barre impilate, diagrammi a dispersione, mappe geologiche, eccetera.

Ci sono molte opzioni disponibili in questa libreria per l'analisi dei dati. Questo strumento è molto utile e rende l'analisi esplorativa dei dati molto più veloce rispetto all'uso di librerie tradizionali di machine learning come pandas, matplotlib, eccetera.
Per la documentazione ufficiale, controlla questo link:
Profilazione di pandas

Es una biblioteca de código abierto escrita en Python y generó informes HTML interactivos y describe varios aspectos del conjunto de datos. Las funcionalidades clave incluyen el manejo de valores perdidos, estadísticas de conjuntos de datos como media, moda, mediano, asimetría, deviazione standard, eccetera., gráficos como istogrammiGli istogrammi sono rappresentazioni grafiche che mostrano la distribuzione di un set di dati. Sono costruiti dividendo l'intervallo di valori in intervalli, oh "Bidoni", e il conteggio della quantità di dati che cadono in ogni intervallo. Questa visualizzazione consente di identificare i modelli, tendenze e variabilità dei dati in modo efficace, facilitare l'analisi statistica e il processo decisionale informato in varie discipline.... y correlaciones también.
Installazione
La creación de perfiles de pandas se puede instalar usando el siguiente código:
pip install pandas-profiling
Análisis de datos exploratorios mediante la creación de perfiles de Pandas
Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Estoy usando un conjunto de datos de muestra para comenzar con la creación de perfiles de pandas, verifique el siguiente código:
#importing required packages import pandas as pd import pandas_profiling import numpy as np #importing the data df = pd.read_csv('sample.csv') #descriptive statistics pandas_profiling.ProfileReport(df)
A continuación se muestra la salida mágica del código anterior

Aquí está el resultado. Aparecerá un informe y devolverá cuántas variables hay en nuestro conjunto de datos, el número de filas, las celdas que faltan en el conjunto de datos, el porcentaje de celdas que faltan, el número y el porcentaje de filas duplicadas. Los datos de celdas faltantes y duplicadas son muy importantes para nuestro análisis, ya que describen la imagen más amplia del conjunto de datos. El informe también muestra el tamaño total de la memoria. También muestra los tipos de variables en el lado derecho de la salida.
La sección de variables muestra el análisis de una columna en particular. Ad esempio per il variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... Categorico, apparirà il seguente output.

Per lui variabile numerica, apparirà il seguente output

Fornisce un'analisi approfondita delle variabili numeriche come quartili, media, somma mediana, varianza, monotonicità, classifica, curtosi, intervallo interquartile e molto altro.
Correlazioni e interazioni: Descrive come le variabili si correlano tra loro tramite. Questi dati sono molto necessari per i data scientist.

Per maggiori informazioni, consulta la documentazione ufficiale:
Sweetviz
È una libreria Python open source utilizzata per ottenere visualizzazioni, utile nell'analisi dei dati esplorativa con poche righe di codice. La libreria può essere utilizzata per visualizzare le variabili e confrontare il set di dati.

Installazione
Questa libreria può essere installata utilizzando il seguente codice:
pip install sweetviz
Análisis de datos exploratorios con SweetViz
Profundicemos en el análisis de datos exploratorios utilizando esta biblioteca. Estoy usando un conjunto de datos de muestra para comenzar, verifique el siguiente código
import sweetviz import pandas as pd df = pd.read_csv('sample.csv') my_report = sweetviz.analyze([df,'Train'], target_feat="SalePrice") my_report.show_html('FinalReport.html')
Reporte final:

Per maggiori informazioni, consulta la documentazione ufficiale:
Autoviz
Significa Visualizar automáticamente. La visualización es posible con cualquier tamaño del conjunto de datos con unas pocas líneas de código.

Installazione
pip installare autoviz
Schermo
Código de muestra:
from autoviz.AutoViz_Class import AutoViz_Class AV = AutoViz_Class() df = AV. AutoViz('sample.csv')
Histograma de variable continua:

Cornici per violino:

Mappa di caloreun "mappa di calore" è una rappresentazione grafica che utilizza i colori per mostrare la densità dei dati in un'area specifica. Comunemente usato nell'analisi dei dati, Marketing e studi comportamentali, Questo tipo di visualizzazione consente di identificare rapidamente modelli e tendenze. Attraverso variazioni cromatiche, Le mappe di calore facilitano l'interpretazione di grandi volumi di informazioni, aiutando a prendere decisioni informate....:

Grafico a dispersioneUn grafico a dispersione è una rappresentazione visiva che mostra la relazione tra due variabili numeriche utilizzando punti su un piano cartesiano. Ogni asse rappresenta una variabile, e la posizione di ciascun punto indica il suo valore in relazione ad entrambi. Questo tipo di grafico è utile per identificare i modelli, Correlazioni e tendenze nei dati, facilitare l'analisi e l'interpretazione delle relazioni quantitative....:

Per maggiori informazioni, consulta la documentazione ufficiale:
Grazie per aver letto questo. se ti piace questo articolo, Condividi con i tuoi amici. In caso di qualsiasi suggerimento / dubbio, commenta qui sotto.
Identificazione e-mail: [e-mail protetta]
Seguimi su LinkedIn: LinkedIn
Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.


