Grafici di visualizzazione dati interattivi con grafici e gemelli

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati

introduzione

I dati sono ovunque nel mondo dei dati di oggi e possiamo trarne vantaggio solo se possiamo estrarre informazioni dai dati. La visualizzazione dei dati è l'aspetto visivamente più accattivante dell'analisi dei dati perché ci consente di interagire con i dati. È quella tecnica magica per trasmettere informazioni a grandi gruppi di persone con un solo sguardo e creare storie interessanti dai dati.. Pandas è uno degli strumenti di analisi dei dati più popolari e ampiamente utilizzati in Python. Ha anche una funzione di stampa incorporata per i campioni. tuttavia, quando si tratta di visualizzazione interattiva, Gli utenti Python che non hanno competenze di ingegneria front-end potrebbero avere alcune sfide, come molte biblioteche, come D3, grafico.js, richiede una certa conoscenza di JavaScript. Plotly e Twins sono utili a questo punto.

Quando c'è una grande quantità di dati e le aziende hanno difficoltà a estrarne informazioni critiche, la visualizzazione dei dati svolge un ruolo importante nel prendere decisioni aziendali critiche.

Plotly è una libreria grafica costruita su d3.js che può essere utilizzata direttamente con i frame di dati Pandas grazie a un'altra libreria chiamata Cufflinks.

Ti mostreremo come utilizzare i grafici interattivi di Plotly con i frame di dati di Panda in questo breve tutorial.. Per mantenere le cose semplici, useremo Jupyter Notebook (installato utilizzando Anaconda Distribution con Python) e il famoso set di dati del Titanic.

Visualizzazione dei dati in Python

Dopo aver completato la pulizia e la manipolazione dei dati, il passo successivo nel processo di analisi dei dati è estrarre approfondimenti e conclusioni significative dai dati, cosa si può ottenere con grafici e tabelle. Python ha diverse librerie che possono essere usate per questo scopo. Generalmente, ci vengono insegnate solo le due librerie matplotlib e seaborn. Queste librerie includono strumenti per la creazione di grafici a linee, grafici a torta, grafici a barre, box plot y una variedad de otros diagramas. Probabilmente ti starai chiedendo perché abbiamo bisogno di altre librerie per la visualizzazione dei dati se abbiamo già matplotlib e seaborn. Quando ho sentito per la prima volta della trama e dei gemelli, Avevo la stessa domanda nella mia testa.

trama

La versione più recente di Plotly è stata 5.1.0, mentre quello con i gemelli era 0.17.5. Poiché le versioni precedenti dei gemelli non sono compatibili con le versioni di stampa appena rilasciate, è essenziale aggiornare entrambi i pacchetti contemporaneamente o trovare versioni compatibili. In Anaconda Prompt, esegui i seguenti comandi per installare plotly (o it Il terminale stesso usa il sistema operativo o Ubuntu)

Plotly è una libreria open source e grafica che consente la stampa interattiva. Pitone, R, MATLAB, Arduino e REST, tra gli altri, sono tra i linguaggi di programmazione supportati dalla libreria.

Cufflink è una libreria Python che collega trama e panda, permettendoci di disegnare grafici direttamente su frame di dati. È essenzialmente un plugin.

I grafici sono interattivi, che ci permette di scorrere sopra i valori, ingrandire e rimpicciolire i grafici e identificare gli outlier nel set di dati. Le lettere Matplotlib e Seaborn, In secondo luogo, sono statici; non possiamo ingrandire o rimpicciolire l'immagine, e tutti i valori nel grafico non sono dettagliati. La caratteristica più importante di Plotly è che ci permette di creare grafica web dinamica direttamente da Python, cosa non è possibile con matplotlib. Possiamo anche realizzare grafici e animazioni interattive da dati geografici, scienziati, statistiche e dati finanziari utilizzando plotly.

Installa su PC “trama “ e “Gemelli utilizzando un ambiente anaconda

conda install -c plotly plotly
conda install -c conda-forge gemelli-py

o usando pip

pip install plotly --upgrade
pip installa gemelli --upgrade

Caricamento librerie

Librerie dei panda, Trama e gemelli verranno caricati per primi. Perché plotly è una piattaforma online, requiere una credencial de inicio de sessione para usarla en línea. Useremo la modalità offline in questo articolo, che è sufficiente per Jupyter Notebook.

#importazione di panda
importa panda come pd
#importazione trama e gemelli in modalità offline
importare gemelli come cf
import plotly.offline
cf.go_offline()
cf.set_config_file(offline=falso, world_readable=Vero)

Caricamento set di dati

Abbiamo detto che utilizzeremo il set di dati del Titanic, cosa puoi ottenere da questo? kaggle_link. Verrà utilizzato solo il file train.csv.

df=pd.read_csv("treno.csv")
df.head()
744991-5903636

Istogramma

Il istogrammi se pueden utilizar para inspeccionar las distribuciones de una característica, come la caratteristica “Età” in questo caso. Usiamo semplicemente il (dataframe["nome della colonna"]) per selezionare una colonna e quindi aggiungere la funzione iplot. Come esempio, possiamo specificare la dimensione del contenitore, l'argomento, il titolo e i nomi degli assi. Con il comando “aiuto (df.iplot)”, puede ver todos los parametri del parámetro iplot.

df["Età"].trama(gentile="istogramma", contenitori=20, tema="bianco", titolo="Età del passeggero",xTitolo="Età", yTitolo ="Contare")
592412-4290013

Puoi tracciare due diverse distribuzioni come due colonne diverse se vuoi confrontarle. Ad esempio, tracceremo l'età dei passeggeri maschi e femmine sullo stesso pacco.

df["età_maschile"]=df[df["Sesso"]=="maschio"]["Età"]
df["età_femminile"]=df[df["Sesso"]=="femmina"]["Età"]df[["età_maschile","età_femminile"]].trama(gentile="istogramma", contenitori=20, tema="bianco", titolo="Età del passeggero",
         xTitolo="Età", yTitolo ="Contare")
942873-2313005

Mappa di calore

Le mappe di calore possono essere utilizzate per una varietà di scopi, ma li useremo per verificare la correlazione tra le caratteristiche in un set di dati come esempio.

323664-1451145

Trama scatola

I box plot sono estremamente utili per interpretare rapidamente l'asimmetria nei dati, valori anomali e intervalli di quartili. Useremo ora un box plot per mostrare la distribuzione di “Valutare” per ogni classe di Titanic.

#otterremo aiuto dalle tabelle pivot per ottenere i valori delle tariffe in colonne diverse per ogni classe.
df[['classe', "Tariffa"]].perno(colonne="Pclass", valori="fare").trama(tipo='scatola')
149315-8732195

Grafico a dispersione

I grafici a dispersione sono comunemente usati per visualizzare la relazione tra due variabili numeriche. Per le variabili “Valutare” e “Età”, useremo diagrammi a dispersione. "Categorie" ci permette di mostrare le variabili di una caratteristica selezionata in vari colori (sesso dei passeggeri in questo caso).

df.iplot(gentile="disperdere", tema="bianco",x="Età",y ="fare",
            categorie="Sesso")
858566-8021065

un rapido promemoria: il parametro “categorie” deve essere una stringa o una colonna di tipo float64. Ad esempio, nell'esempio del grafico a bolle, dovrebbe convertire la colonna “Sopravvissuto” di tipo intero in float64 o string.

Grafico a bolle

Possiamo usare i grafici a bolle per vedere più relazioni variabili contemporaneamente. Con i parametri di “categorie” e “dimensione” nel grafico, possiamo facilmente regolare le sottocategorie di colore e dimensione. Con il parametro “testo”, possiamo anche specificare la colonna di testo mobile.

#convertire la colonna sopravvissuta in float64 per poterla utilizzare in plotly
df[['Sopravvissuto']] = df[['Sopravvissuto']].come tipo('float64', copia=Falso)df.iplot(tipo='bolla', x="fare",y ="Età",categorie="Sopravvissuto", taglia="Pclass", testo="Nome", xTitolo="fare", yTitolo ="Età")
681587-5062110

Grafico a barre

I grafici a barre sono utili per presentare i dati di diversi gruppi che vengono confrontati tra loro. Cosa c'è di più, può essere usato in pila per mostrare diversi effetti variabili. Faremo un grafico a barre per mostrare il conteggio dei passeggeri sopravvissuti per sesso.

sesso_sopravvissuto = df[df['Sopravvissuto']==1]['Sesso'].value_counts()
dead_sex = df[df['Sopravvissuto']==0]['Sesso'].value_counts()
df1 = pd.DataFrame([sesso_sopravvissuto,sesso_morto])
df1.index = ['Sopravvissuto','Morto']
df1.iplot(tipo='bar',moda da bar ="pila", titolo="Sopravvivenza del sesso")
560288-4447619

Ho cercato di spiegare tutto il più semplice possibile. Spero sia più facile per i nuovi arrivati ​​capire la trama.

Plotly fornisce anche grafici scientifici, Grafica 3D, mappe e animazioni. Puoi visitare la documentazione di plotly qui per ulteriori dettagli.

Dai un'occhiata a EDA – Analisi esplorativa dei dati con Python Pandas e SQL CLICCA PER LEGGERE

Nota finale

Grazie per aver letto!
Spero che l'articolo ti sia piaciuto e che abbia aumentato le tue conoscenze.
Per favore sentiti libero di contattarmi su E-mail
Tutto ciò che non è stato menzionato o vuoi condividere i tuoi pensieri? Sentiti libero di commentare qui sotto e ti ricontatterò.

Circa l'autore

Hardikkumar M. Dhaduk
Analista dati | Specialista nell'analisi dei dati digitali | Studente di Data Science
Connettiti con me su Linkedin
Connettiti con me su Github

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.