Esta postagem foi lançada como parte do Data Science Blogathon
Introdução
Em Estatística Aplicada e Aprendizado de Máquina, Visualização de dados é uma das habilidades mais importantes.
A visualização de dados fornece um conjunto importante de ferramentas para identificar a compreensão qualitativa. Isso pode ser útil ao tentar explorar o conjunto de dados e extrair insights para aprender sobre um conjunto de dados e pode ajudar com identificação de padrão, dados corrompidos, Valores atípicos, e muito mais.
Se tivermos algum conhecimento de domínio, as visualizações de dados podem ser usadas para expressar e identificar relacionamentos-chave em tabelas e gráficos que são mais úteis para você e seus stakeholders do que medidas de associação ou relevância.
Neste post, Discutiremos alguns dos gráficos básicos o parcelas que você pode usar para entender e visualizar melhor seus dados.
Tabela de conteúdo
1. O que é visualização de dados?
2. Benefícios de uma boa visualização de dados
3. Diferentes tipos de análise para visualização de dados
4. Técnicas de análise univariada para visualização de dados
- Parcela de distribuição
- Plotagem de caixa e bigode
- Moldura de violino
5. Técnicas de análise bivariada para visualização de dados
- Gráfico de linha
- Gráfico de barrasO gráfico de barras é uma representação visual de dados que usa barras retangulares para mostrar comparações entre diferentes categorias. Cada barra representa um valor e seu comprimento é proporcional a ele. Esse tipo de gráfico é útil para visualizar e analisar tendências, facilitar a interpretação de informações quantitativas. É amplamente utilizado em várias disciplinas, como estatísticas, Marketing e pesquisa, devido à sua simplicidade e eficácia....
- Gráfico de dispersãoUm gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis numéricas usando pontos em um plano cartesiano. Cada eixo representa uma variável, e a localização de cada ponto indica seu valor em relação a ambos. Esse tipo de gráfico é útil para identificar padrões, Correlações e tendências nos dados, facilitando a análise e interpretação de relações quantitativas....
O que é visualização de dados?
A visualização de dados é definida como representação gráfica que contém o em formação e ele dados.
Usando itens visuais como gráficos, gráficos, e mapas, técnicas de visualização de dados fornecem uma maneira viável de ver e entender as tendências, outliers e padrões nos dados.
Atualmente, temos muitos dados em nossas mãos, Em outras palavras, no mundo de Big Data, ferramentas e tecnologias de visualização de dados são cruciais para analisar grandes quantidades de informações e tomar decisões baseadas em dados.
É usado em muitas áreas, como:
- Modelar eventos complexos.
- Visualize fenômenos que não podem ser observados diretamente, O que Padrões climáticos, condições médicas, o relações matemáticas.
Benefícios de uma boa visualização de dados
Já que nossos olhos podem capturar as cores e padrões, por isso, podemos identificar rapidamente a parte vermelha do azul, o quadrado do círculo, nossa cultura é visual, isso inclui tudo, da arte e propagandas à televisão e filmes.
Então, a visualização de dados é outra técnica de arte visual que capta nosso interesse e mantém nosso foco principal na mensagem capturada com a ajuda dos olhos.
Sempre que visualizamos um gráfico, identificamos rapidamente tendências e discrepâncias presentes no conjunto de dados.
Os usos básicos da técnica de visualização de dados são os seguintes:
- É uma técnica poderosa para explorar dados com apresentável e interpretável resultados.
- No procedimento de mineração de dados, atua como uma etapa principal na parte de pré-processamento.
- É compatível com procedimento de limpeza de dados encontrar dados incorretos e valores corrompidos ou ausentes.
- Além disso ajuda construir e escolher variáveis, lo que significa que tenemos que determinar qué variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... incluir y descartar en el análisis.
- No procedimento de declínio de dados, também desempenha um papel crucial na combinação das categorias.
Fonte da imagem: Imagens do google
Diferentes tipos de análise para visualização de dados
Principalmente, existem três tipos diferentes de análise para visualização de dados:
Análise univariada: Na análise univariada, usaremos um único recurso para analisar quase todas as suas propriedades.
Análise bivariada: Quando comparamos os dados entre exatamente 2 caracteristicas, é conhecido como análise bivariada.
Analisis multivariável: Na análise multivariada, Vai estar comparando mais de 2 variáveis.
NOTA:
Neste post, Nosso principal objetivo é entender os seguintes conceitos:
- Como encontrar algumas inferências de técnicas de visualização de dados?
- em que condição, qual técnica é mais útil do que outras?
Não vamos nos aprofundar na parte de codificação / implementação de diferentes técnicas em um determinado conjunto de dados, mas tentamos encontrar a solução para as perguntas acima e entender apenas o código no trecho com a ajuda de diagramas de amostra para cada uma das técnicas de visualização de dados. .
Agora, vamos começar com as diferentes técnicas de visualização de dados:
Técnicas de análise univariada para visualização de dados
1. Parcela de distribuição
- É um dos melhores gráficos univariados para conhecer a distribuição dos dados.
- Quando queremos analisar o impacto na variável alvo (Saída) em relação a uma variável independente (entrada), usamos muito gráficos de distribuição.
- Este gráfico nos dá uma combinação de funções de densidade de probabilidade (pdf) e histograma em um único gráfico.
Implementação:
- O gráfico de distribuição está presente no Seaborn pacote.
O trecho de código é o seguinte:
sns.FacetGrid(hb,matiz ="SurvStat",tamanho=5).mapa(sns.distplot,'era').add_legend()
Algumas conclusões tiradas do diagrama de distribuição acima:
A partir do gráfico de distribuição acima, podemos concluir as seguintes observações:
- Vimos que criamos um gráfico de distribuição na característica 'Idade’(variável de entrada) e usamos cores diferentes para o Estado de sobrevivência(variável de saída) uma vez que é a classe para prever.
- Há uma grande área de sobreposição entre os PDFs para diferentes combinações.
- Neste gráfico, las estructuras afiladas en forma de bloque se denominan histogramasHistogramas são representações gráficas que mostram a distribuição de um conjunto de dados. Eles são construídos dividindo o intervalo de valores em intervalos, o "Caixas", e contando quantos dados caem em cada intervalo. Essa visualização permite identificar padrões, tendências e variabilidade de dados de forma eficaz, facilitando a análise estatística e a tomada de decisões informadas em várias disciplinas.... y la curva suavizada se conoce como función de densidad de probabilidad (PDF).
NOTA:
A função de densidade de probabilidade (PDF) de uma curva pode nos ajudar a capturar a distribuição subjacente dessa característica, que é uma das principais conclusões da visualização de dados ou análise exploratória de dados (EDA).
2. Plotagem de caixa e bigode
- Este gráfico pode ser usado para obter mais detalhes estatísticos sobre os dados.
- As linhas no máximo e no mínimo também são chamadas bigodes.
- Pontos que estão fora dos bigodes serão considerados outliers.
- O box plot também nos dá uma descrição do Quartis 25, 50, 75.
- Com a ajuda de um gráfico de caixa, Além disso, podemos determinar a Intervalo interquartil (IQR) onde os detalhes máximos dos dados estarão presentes. Por isso, também pode nos dar uma ideia clara sobre os valores discrepantes no conjunto de dados.
FIG. Diagrama geral para um gráfico de caixa
Implementação:
- O boxplot está ativado Seaborn Biblioteca.
- Aqui x é considerado como a variável dependente e y é considerado como a variável independente. Estes plotagens de caixaDiagramas de caixa, Também conhecido como diagramas de caixa e bigode, são ferramentas estatísticas que representam a distribuição de um conjunto de dados. Esses diagramas mostram a mediana, Quartis e outliers, permitindo que a variabilidade e a simetria dos dados sejam visualizadas. Eles são úteis na comparação entre diferentes grupos e na análise exploratória, facilitando a identificação de tendências e padrões nos dados.... vienen debajo Aqui x é considerado como a variável dependente e y é considerado como a variável independente, Aqui x é considerado como a variável dependente e y é considerado como a variável independente.
- Aqui x é considerado como a variável dependente e y é considerado como a variável independente “Aqui x é considerado como a variável dependente e y é considerado como a variável independente” Aqui x é considerado como a variável dependente e y é considerado como a variável independente “Estado de sobrevivência” Aqui x é considerado como a variável dependente e y é considerado como a variável independente.
O trecho de código é o seguinte:
sns.boxplot(Aqui x é considerado como a variável dependente e y é considerado como a variável independente,Aqui x é considerado como a variável dependente e y é considerado como a variável independente,Aqui x é considerado como a variável dependente e y é considerado como a variável independente)
Aqui x é considerado como a variável dependente e y é considerado como a variável independente:
Aqui x é considerado como a variável dependente e y é considerado como a variável independente:
- Aqui x é considerado como a variável dependente e y é considerado como a variável independente, etc.
- Aqui x é considerado como a variável dependente e y é considerado como a variável independente 1, podemos ver que hay muy pocos o ningún dato presente entre la medianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos.... y el primer cuartil.
- Há mais outliers para a classe 1 no recurso chamado axil_nodes.
NOTA:
Podemos obter detalhes sobre os outliers que nos ajudarão a preparar bem os dados antes de enviá-los para um modelo, já que os outliers influenciam muitos modelos de aprendizado de máquina.
3. Moldura de violino
- Os gráficos de violino podem ser pensados como uma combinação de gráficos de caixa intermediária e gráficos de distribuição.(Estimativa de densidade de grão) em ambos os lados dos dados.
- Isso pode nos dar a descrição da distribuição do conjunto de dados como se a distribuição fosse multimodal, Obliquidadeetc.
- Ele também nos fornece informações úteis, como Intervalo de confiança de 95%.
FIG. Diagrama geral para um gráfico de violino
Implementação:
- A trama do violino está presente na Seaborn pacote.
O trecho de código é o seguinte:
sns.violinplot(Aqui x é considerado como a variável dependente e y é considerado como a variável independente,y='em_ano',Aqui x é considerado como a variável dependente e y é considerado como a variável independente,tamanho=6)
Algumas conclusões inferidas do gráfico de violino acima:
A partir do gráfico de violino acima, podemos concluir as seguintes observações:
- A mediana de ambas as classes está próxima de 63.
- O número máximo de pessoas com classe 2 tem um ano operacional valor de 65 enquanto que, para as pessoas da classe 1, o valor máximo é em torno 60.
- Ao mesmo tempo, o terceiro quartil para a mediana tem menos pontos de dados do que a mediana para o primeiro quartil.
Técnicas de análise bivariada para visualização de dados
1. Gráfico de linha
- Este é o gráfico que pode ser visto nos cantos de qualquer tipo de análise entre 2 variáveis.
- Os gráficos de linhas nada mais são do que os valores de uma série de pontos de dados a serem conectados com linhas retas.
- O enredo pode parecer muito simples, mas tem mais aplicações não apenas em aprendizado de máquina, mas em muitas outras áreas..
Implementação:
- O gráfico de linhas está presente no Matplotlib pacote.
O trecho de código é o seguinte:
plt.plot(x,e)
Algumas conclusões tiradas do diagrama de linhas acima:
Renomear colunas na tabela Hack code 'M gráfico de linhaO gráfico de linhas é uma ferramenta visual usada para representar dados ao longo do tempo. Consiste em uma série de pontos conectados por linhas, que permite observar tendências, Flutuações e padrões nos dados. Esse tipo de gráfico é especialmente útil em áreas como economia, Meteorologia e pesquisa científica, facilitando a comparação de diferentes conjuntos de dados e a identificação de comportamentos em geral.. anterior podemos concluir las siguientes observaciones:
- Eles são usados diretamente da execução da comparação de distribuição usando Parcelas QQ para ajustar CV usando o método do cotovelo.
- É usado para analisar o desempenho de um modelo usando o Curva ROC- AUC.
2. Gráfico de barras
- Este é um dos gráficos mais usados, que teríamos visto várias vezes não só na análise de dados, mas também usamos este gráfico sempre que há análise de tendências em muitos campos.
- Mesmo quando parece simples, é poderoso para analisar dados como números de vendas a cada semana, renda de um produto, Número de visitantes de um site a cada dia da semanaetc.
Implementação:
- O gráfico de barras está presente na Matplotlib pacote.
O trecho de código é o seguinte:
plt.bar(x,e)
Algumas conclusões tiradas do gráfico de barras acima:
Do gráfico de barras acima podemos concluir as seguintes observações:
- Podemos visualizar os dados em um quadro legal e podemos transmitir os detalhes diretamente para outras pessoas.
- Este gráfico pode ser simples e claro, mas não é usado com muita frequência em aplicativos de ciência de dados.
3. Diagrama de dispersãoO gráfico de dispersão é uma ferramenta gráfica usada em estatística para visualizar a relação entre duas variáveis. Consiste em um conjunto de pontos em um plano cartesiano, onde cada ponto representa um par de valores correspondentes às variáveis analisadas. Este tipo de gráfico permite identificar padrões, Tendências e possíveis correlações, facilitando a interpretação dos dados e a tomada de decisão com base nas informações visuais apresentadas....
- É um dos gráficos mais usados para visualizar dados simples em aprendizado de máquina e ciência de dados..
- Este gráfico nos descreve como uma representação, onde cada ponto no conjunto de dados completo está presente em relação a 2 o 3 caracteristicas (colunas).
- Os gráficos de dispersão estão disponíveis em 2-D e 3-D. O gráfico de dispersão 2-D é o mais comum, onde tentaremos principalmente encontrar os padrões, grupos e separabilidade de dados.
Implementação:
- O gráfico de dispersão está presente na Matplotlib pacote.
O trecho de código é o seguinte:
plt.scatter(x,e)
Algumas conclusões inferidas do gráfico de dispersão acima:
A partir do gráfico de dispersão acima, podemos concluir as seguintes observações:
- As cores são atribuídas a diferentes pontos de dados com base em como eles estavam presentes no conjunto de dados. Em outras palavras, renderização da coluna de destino.
- Podemos colorir os pontos de dados com base no rótulo de classe fornecido no conjunto de dados.
Isso completa a discussão de hoje!!
Notas finais
Obrigado pela leitura!
Espero que tenha gostado do post e aumentado seus conhecimentos sobre técnicas de visualização de dados..
Por favor sinta-se à vontade para me contactar sobre Correio eletrônico
Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você.
Para os restantes cargos, Pedir ao Ligação.
Sobre o autor
Aashi Goyal
Neste momento, Estou cursando bacharelado em tecnologia (B.Tech) em Engenharia Eletrônica e de Comunicação pela Universidad Guru Jambheshwar (GJU), Hisar. Estou muito animado com as estatísticas, aprendizado de máquina e aprendizado profundoAqui está o caminho de aprendizado para dominar o aprendizado profundo em, Uma subdisciplina da inteligência artificial, depende de redes neurais artificiais para analisar e processar grandes volumes de dados. Essa técnica permite que as máquinas aprendam padrões e executem tarefas complexas, como reconhecimento de fala e visão computacional. Sua capacidade de melhorar continuamente à medida que mais dados são fornecidos a ele o torna uma ferramenta fundamental em vários setores, da saúde....
Suas sugestões e dúvidas são bem-vindas aqui na seção de comentários. Obrigado por ler meu post!!