Gráficos de visualização de dados interativos com gráficos e gêmeos

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Introdução

Os dados estão em toda parte no mundo dos dados de hoje e só podemos nos beneficiar deles se conseguirmos extrair informações dos dados. A visualização de dados é o aspecto mais atraente visualmente da análise de dados porque nos permite interagir com os dados. É aquela técnica mágica de transmitir informações a grandes grupos de pessoas com um único olhar e criar histórias interessantes a partir de dados.. Pandas é uma das ferramentas de análise de dados mais populares e amplamente utilizadas em Python. Ele também possui um recurso de plotagem integrado para amostras. Porém, quando se trata de visualização interativa, Os usuários de Python que não possuem habilidades de engenharia de front-end podem ter alguns desafios, como muitas bibliotecas, como D3, chart.js, requer algum conhecimento de JavaScript. Plotly e Twins são úteis neste ponto.

Quando há uma grande quantidade de dados e as empresas têm dificuldade em extrair informações críticas deles, a visualização de dados desempenha um papel importante na tomada de decisões críticas de negócios.

Plotly é uma biblioteca gráfica construída sobre d3.js que pode ser usada diretamente com os frames de dados do Pandas graças a outra biblioteca chamada Cufflinks.

Mostraremos como usar gráficos interativos Plotly com quadros de dados Pandas neste tutorial rápido.. Para manter as coisas simples, usaremos Jupyter Notebook (instalado usando a distribuição Anaconda com Python) e o famoso conjunto de dados do Titanic.

Visualização de dados em Python

Depois de completar a limpeza e manipulação de dados, a próxima etapa no processo de análise de dados é extrair percepções e conclusões significativas dos dados, o que pode ser alcançado por gráficos e tabelas. Python tem várias bibliotecas que podem ser usadas para este propósito. Em geral, somos ensinados apenas sobre as duas bibliotecas matplotlib e seaborn. Essas bibliotecas incluem ferramentas para a criação de gráficos de linha, gráfico de setores, gráficos de barra, gráficos de caixa e uma variedade de outros diagramas. Você provavelmente está se perguntando por que precisamos de outras bibliotecas para visualização de dados se já temos matplotlib e seaborn. Quando ouvi pela primeira vez sobre a trama e os gêmeos, Eu tinha a mesma pergunta na minha cabeça.

Completamente

O lançamento mais recente de Plotly foi 5.1.0, enquanto aquele com gêmeos era 0.17.5. Porque as versões mais antigas de botões de punho não são compatíveis com as versões de plotagem recém-lançadas, é essencial atualizar os dois pacotes ao mesmo tempo ou encontrar versões compatíveis. In Anaconda Prompt, execute os seguintes comandos para instalar o plotly (o en Terminal si usa OS o Ubuntu)

Plotly é uma biblioteca de código aberto e gráfica que permite plotagem interativa. Pitão, R, MATLAB, Arduino e REST, entre outros, estão entre as linguagens de programação suportadas pela biblioteca.

Cufflink é uma biblioteca Python que conecta plotly e pandas, nos permitindo desenhar gráficos diretamente em quadros de dados. É essencialmente um plugin.

Os gráficos são interativos, o que nos permite rolar acima dos valores, amplie e afaste os gráficos e identifique outliers no conjunto de dados. The Matplotlib e Seaborn Letters, por outro lado, eles são estáticos; não podemos ampliar ou reduzir a imagem, e todos os valores no gráfico não são detalhados. A característica mais importante do Plotly é que ele nos permite criar gráficos dinâmicos da web diretamente do Python, o que não é possível com matplotlib. Também podemos fazer gráficos e animações interativas a partir de dados geográficos, cientistas, estatísticas e finanças usando plotly.

Instalar no pc “enredo “ e “gêmeos usando um ambiente anaconda

conda install -c plotly plotly
conda install -c conda-forge abotoaduras-py

o usando pip

pip install plotly --upgrade
pip install abotoaduras - atualização

Carregando bibliotecas

Bibliotecas Pandas, Plotly e Cufflinks irão carregar primeiro. Porque plotly é uma plataforma online, requer uma credencial de login para usar online. Usaremos o modo offline neste artigo, o que é suficiente para o Jupyter Notebook.

#importando pandas
importar pandas como pd
#importing plotly e botões de punho no modo offline
importar botões de punho como cf
import plotly.offline
cf.go_offline()
cf.set_config_file(offline = False, world_readable = True)

Carregando conjunto de dados

Mencionamos que usaremos o conjunto de dados do Titanic, o que você pode tirar disso kaggle_link. Apenas o arquivo train.csv será usado.

df = pd.read_csv("train.csv")
df.head()
744991-5903636

Histograma

Os histogramas podem ser usados ​​para inspecionar as distribuições de uma característica, como o recurso “Era” neste caso. Nós simplesmente usamos o (quadro de dados["nome da coluna"]) para selecionar uma coluna e, em seguida, adicionar a função iplot. Como exemplo, podemos especificar o tamanho do contêiner, o tema, o título e nomes dos eixos. Com o comando “ajuda (df.iplot)”, você pode ver todos os parâmetros do parâmetro iplot.

df["Era"].iplot(kind ="histograma", bins = 20, tema ="Branco", título ="Idade do Passageiro",xTitle ="Idades", yTitle ="Contar")
592412-4290013

Você pode plotar duas distribuições diferentes como duas colunas diferentes se quiser compará-las. Por exemplo, vamos colocar as idades dos passageiros do sexo masculino e feminino no mesmo pacote.

df["male_age"]= df[df["Sexo"]=="macho"]["Era"]
df["idade_feminina"]= df[df["Sexo"]=="fêmea"]["Era"]df[["male_age","idade_feminina"]].iplot(kind ="histograma", bins = 20, tema ="Branco", título ="Idade do Passageiro",
         xTitle ="Idades", yTitle ="Contar")
942873-2313005

Mapa de calor

Os mapas de calor podem ser usados ​​para uma variedade de propósitos, mas vamos usá-los para verificar a correlação entre os recursos em um conjunto de dados como um exemplo.

323664-1451145

Box plot

Os gráficos de caixa são extremamente úteis para interpretar rapidamente a assimetria nos dados, outliers e intervalos de quartil. Agora vamos usar um gráfico de caixa para mostrar a distribuição de “Avaliar” para cada classe do Titanic.

#obteremos ajuda de tabelas dinâmicas para obter valores de tarifa em diferentes colunas para cada classe.
df[['Pclass', 'Tarifa']].pivô(colunas ="Pclass", valores ="Tarifa").iplot(kind = 'caixa')
149315-8732195

Gráfico de dispersão

Os gráficos de dispersão são comumente usados ​​para visualizar a relação entre duas variáveis ​​numéricas. Para variáveis “Avaliar” e “Era”, vamos usar diagramas de dispersão. "Categorias" nos permite mostrar as variáveis ​​de uma característica selecionada em várias cores (sexo dos passageiros neste caso).

df.iplot(kind ="espalhar", tema ="Branco",x ="Era",y ="Tarifa",
            categorias ="Sexo")
858566-8021065

um lembrete rápido: o parâmetro “categorias” deve ser uma string ou coluna do tipo float64. Por exemplo, no exemplo do gráfico de bolhas, deve converter coluna “Sobreviveu” do tipo inteiro em float64 ou string.

Gráfico de bolhas

Podemos usar gráficos de bolhas para ver vários relacionamentos de variáveis ​​ao mesmo tempo. Com os parâmetros de “categorias” e “Tamanho” no gráfico, podemos facilmente ajustar as subcategorias de cor e tamanho. Com o parâmetro “texto”, também podemos especificar a coluna de texto flutuante.

#convertendo a coluna Sobrevivido em float64 para poder usar em plotagem
df[['Sobreviveu']] = df[['Sobreviveu']].astype('float64', copy = False)df.iplot(kind = 'bolha', x ="Tarifa",y ="Era",categorias ="Sobreviveu", tamanho ="Pclass", text ="Nome", xTitle ="Tarifa", yTitle ="Era")
681587-5062110

Gráfico de barras

Os gráficos de barras são bons para apresentar dados de diferentes grupos que são comparados entre si. O que mais, pode ser usado empilhado para mostrar diferentes efeitos de variáveis. Faremos um gráfico de barras para mostrar a contagem de passageiros sobreviventes por sexo.

survived_sex = df[df['Sobreviveu']== 1]['Sexo'].valor_contas()
dead_sex = df[df['Sobreviveu']== 0]['Sexo'].valor_contas()
df1 = pd.DataFrame([survived_sex,dead_sex])
df1.index = ['Sobreviveu','Morto']
df1.iplot(kind = 'bar',moda bar ="pilha", título ="Sobrevivência pelo Sexo")
560288-4447619

Tentei explicar tudo o mais simples possível. Espero que seja mais fácil para os recém-chegados entender o enredo.

Plotly também fornece gráficos científicos, Gráficos 3D, mapas e animações. Você pode visitar a documentação do plotly aqui para mais detalhes.

Dê uma olhada no EDA – Análise exploratória de dados com Python Pandas e SQL CLIQUE PARA LER

EndNote

Obrigado pela leitura!
Espero que você tenha gostado do artigo e aumentado seu conhecimento.
Por favor sinta-se à vontade para me contactar sobre Correio eletrônico
Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você.

Sobre o autor

Hardikkumar M. Dhaduk
Analista de informações | Especialista em análise de dados digitais | Estudante de Ciência de Dados
Conecte-se comigo no Linkedin
Conecte-se comigo no Github

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.