Vamos dar uma olhada neste gráfico por um segundo.,
Esta visualização (originalmente criado com o Tableau) é um ótimo exemplo de como a visualização de dados pode ajudar os tomadores de decisão. Imagine contar essas informações a um investidor por meio de uma tabela. Quanto tempo você acha que vai demorar para explicar?
Com um volume cada vez maior de dados no mundo de hoje, é impossível contar histórias sem essas visualizações. Embora existam ferramentas dedicadas como o Tableau, QlikView y d3.js, nada pode substituir as ferramentas de modelagem / estatísticas com boa capacidade de visualização. Isso ajuda muito a realizar qualquer análise exploratória de dados, bem como engenharia de função. É aqui que R oferece uma ajuda incrível.
A Programação R oferece um conjunto satisfatório de funções e bibliotecas integradas (como ggplot2, Informação do usuário, treliça) para criar visualizações e apresentar dados. Neste artigo, Eu cobri as etapas para criar visualizações comuns e avançadas na Programação R. Mas, antes de alcançá-los, vamos olhar rapidamente para o breve histórico da visualização de dados. Se você não está interessado em história, você pode prosseguir com segurança para a próxima seção.
Um breve histórico da visualização de dados:
Historicamente, a visualização de dados evoluiu graças ao trabalho de profissionais líderes. O fundador dos métodos gráficos em estatística é William Playfair. William Playfair inventou quatro tipos de gráficos: a gráfico de linhaEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo..., a gráfico de barrasO gráfico de barras é uma representação visual de dados que usa barras retangulares para mostrar comparações entre diferentes categorias. Cada barra representa um valor e seu comprimento é proporcional a ele. Esse tipo de gráfico é útil para visualizar e analisar tendências, facilitar a interpretação de informações quantitativas. É amplamente utilizado em várias disciplinas, como estatísticas, Marketing e pesquisa, devido à sua simplicidade e eficácia.... de datos económicos, a gráfico de pizzaO gráfico de pizza, Também conhecido como gráfico de pizza, é uma representação visual que mostra a proporção de diferentes partes para um todo. É comumente usado em estatística para ilustrar a distribuição de dados categóricos. Cada seção do gráfico representa uma porcentagem do total, facilitando a comparação entre categorias. Seu design claro e conciso o torna uma ferramenta eficaz para a apresentação de informações quantitativas.... y el gráfico circular. Joseph Priestly havia criado a inovação dos primeiros gráficos de linha do tempo, onde barras individuais foram usadas para visualizar a vida útil de uma pessoa (1765). Assim é, Cronogramas foram inventados atrás 250 anos e não pelo Facebook!
Entre as primeiras visualizações de dados mais famosas está a Marcha de Napoleão, como descrito Charles Minard. A visualização de dados inclui informações extensas sobre o efeito da temperatura na invasão de Napoleão da Rússia, juntamente com escalas de tempo. O gráfico se destaca por sua representação em duas dimensões de seis tipos de dados.: o número de tropas de Napoleão; distância; temperatura; latitude e longitude; direção da viagem; e localização em relação a datas específicas
Florence Nightangle também foi pioneira em visualização de dados. Desenhou gráficos de Coxcomb para representar o efeito da doença na mortalidade das tropas (1858). O uso de mapas em gráficos ou análise espacial foi iniciado por John Snow (¡No de Game of Thrones!). Era um mapa de mortes por um surto de cólera em Londres, 1854, em relação à localização de bombas d'água públicas e ajudou a identificar o surto em uma única bomba.
Visualização de dados em R:
Neste artigo, vamos criar as seguintes visualizações:
Visualização básica
- Histograma
- Gráfico de barras / linhas
- Box plot
- Gráfico de dispersãoUm gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis numéricas usando pontos em um plano cartesiano. Cada eixo representa uma variável, e a localização de cada ponto indica seu valor em relação a ambos. Esse tipo de gráfico é útil para identificar padrões, Correlações e tendências nos dados, facilitando a análise e interpretação de relações quantitativas....
Visualização avançada
- Mapa de caloruma "mapa de calor" é uma representação gráfica que usa cores para mostrar a densidade de dados em uma área específica. Comumente usado em análise de dados, Estudos de marketing e comportamentais, Esse tipo de visualização permite identificar padrões e tendências rapidamente. Através de variações cromáticas, Os mapas de calor facilitam a interpretação de grandes volumes de informações, ajudando a tomar decisões informadas....
- Mapa de mosaico
- Exibir mapa
- Gráficos 3D
- Correlograma
Dica R: a HistData O pacote fornece uma coleção de pequenos conjuntos de dados que são interessantes e importantes na história das estatísticas e visualização de dados..
DISPLAYS BÁSICOS
Notas rápidas:
- Gráficos básicos em R podem ser criados facilmente. a enredo comando é o comando a considerar.
- Toma muchos parametroso "parametros" são variáveis ou critérios usados para definir, medir ou avaliar um fenômeno ou sistema. Em vários domínios, como a estatística, Ciência da Computação e Pesquisa Científica, Os parâmetros são essenciais para estabelecer normas e padrões que orientam a análise e interpretação dos dados. Sua seleção e manuseio adequados são cruciais para obter resultados precisos e relevantes em qualquer estudo ou projeto.... de datos del eje x, dados do eixo y, rótulos do eixo x, rótulos do eixo y, cor e título. Para criar gráficos de linha, apenas use o parâmetro, tipo = l.
- Se você quer um box plot, você pode usar a palavra box plot e, para gráfico de barras, use a função de gráfico de barras.
1. Histograma
O histograma é basicamente um gráfico que divide os dados em contêineres (o rupturas) e mostra a distribuição de frequência desses contêineres. Você também pode alterar as pausas e ver o efeito que a visualização de dados tem em termos de compreensibilidade.
Deixe-me lhe dar um exemplo.
Observação: Nós usamos o comando par (mfrow = c (2,5)) para ajustar vários gráficos na mesma página para maior clareza (veja o código abaixo).
Os comandos a seguir mostram isso de uma maneira melhor. No seguinte código, a diretor A opção define o título do gráfico e o coluna opción llama en la Paleta de coresA paleta de cores é uma ferramenta fundamental no design gráfico e decoração. Consiste em uma seleção de cores que são usadas harmoniosamente para criar uma atmosfera específica ou transmitir emoções. Existem várias teorias de cores que ajudam a escolher combinações eficazes, como roda de cores e contraste. Uma paleta bem definida pode melhorar a estética e a comunicação visual de um projeto.... de RColorBrewer para establecer los colores.
biblioteca(RColorBrewer)
dados(VADeaths) Através dos(mfrow = c(2,3)) hist(VADeaths,pausas = 10, col = brewer.pal(3,"Set3"),principal ="Set3 3 cores") hist(VADeaths,pausas = 3 ,col = brewer.pal(3,"Set2"),principal ="Set2 3 cores") hist(VADeaths,pausas = 7, col = brewer.pal(3,"Set1"),principal ="Set1 3 cores") hist(VADeaths,,pausas = 2, col = brewer.pal(8,"Set3"),principal ="Set3 8 cores") hist(VADeaths,col = brewer.pal(8,"Grays"),principal ="Grays 8 cores") hist(VADeaths,col = brewer.pal(8,"Verdes"),principal ="Verdes 8 cores")
Observe que se o número de quebras for menor que o número especificado de cores, as cores vão para valores extremos como no gráfico “Estabelecer 3 8 cores”. Se o número de cortes for maior que o número de cores, as cores começam a se repetir como na primeira linha.
2. Gráfico de barras / linhas
Gráfico de linha
Abaixo está o gráfico de linhas que mostra o aumento de passageiros aéreos em um determinado período de tempo. Os gráficos de linha são comumente preferidos quando vamos analisar uma tendência que se estende por um período de tempo.. O que mais, el gráfico de líneas también es adecuado para gráficos en los que necesitamos comparar cambios relativos en cantidades a través de alguna variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... (como o tempo). Abaixo está o código:
enredo(AirPassengers,tipo ="eu") #Gráfico de linha simples
Gráfico de barras
gráficos de barras são adequados para mostrar a comparação entre os totais acumulados de vários grupos. Gráficos empilhados são usados para gráficos de barras para várias categorias. Aqui está o código:
barplot(iris$Pétala.Comprimento) #Creating simple Bar Graph
barplot(íris$Sepal.Comprimento,col = brewer.pal(3,"Set1"))
barplot(tabela(iris$Espécies,íris$Sepal.Comprimento),col = brewer.pal(3,"Set1")) #Enredo Empilhado
3. Box plot (incluindo a opção de agrupar)
Diagrama de caixa mostra 5 números estatisticamente significativos: o mínimo, o percentil 25, a medianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos...., o percentil 75 e o máximo. Portanto, é útil para visualizar a extensão dos dados e derivar inferências em conformidade. Aqui está o código básico:
boxplot(iris$Pétala.Comprimento~iris$Espécies) #Criando plot de caixa entre duas variáveis
Vamos entender o código abaixo:
No exemplo a seguir, Fez 4 gráficos em uma tela. Usando o sinal ~, Posso visualizar como é a propagação (comprimento sépala) em várias categorias (espécies). Nos últimos dois gráficos, mostrei o exemplo de paletas de cores. Uma paleta de cores é um grupo de cores usado para tornar o gráfico mais atraente e para ajudar a criar distinções visuais nos dados..
dados(íris) Através dos(mfrow = c(2,2)) boxplot(íris$Sepal.Comprimento,col ="vermelho") boxplot(iris $ Sepal.Length ~ iris $ Espécies,col ="vermelho") trama de boi(iris $ Sepal.Length ~ iris $ Espécies,col = heat.colors(3)) boxplot(iris $ Sepal.Length ~ iris $ Espécies,col = topo.colors(3))
Para obter mais informações sobre o uso de paletas de cores em R, visite aqui.
4. Gráfico de dispersão (incluindo 3D e outros recursos)
Os gráficos de dispersão ajudam a visualizar os dados facilmente e para uma inspeção de dados simples. Aquí está el código para el Diagrama de dispersãoO gráfico de dispersão é uma ferramenta gráfica usada em estatística para visualizar a relação entre duas variáveis. Consiste em um conjunto de pontos em um plano cartesiano, onde cada ponto representa um par de valores correspondentes às variáveis analisadas. Este tipo de gráfico permite identificar padrões, Tendências e possíveis correlações, facilitando a interpretação dos dados e a tomada de decisão com base nas informações visuais apresentadas.... simple y multivariado:
enredo(x = íris $ Petal.Length) #Gráfico de dispersão simples
enredo(x = íris $ Petal.Length,y = iris $ Species) #Gráfico de dispersão multivariado
Scatter PlotUn diagrama de dispersión es una representación gráfica que muestra la relación entre dos variables. Cada punto en el gráfico corresponde a un par de valores, lo que permite identificar patrones, tendencias o correlaciones. Esta herramienta es útil en diversas disciplinas, como la estadística y la investigación científica, ya que facilita el análisis visual de datos y la comprensión de la relación entre los elementos estudiados.... Matrix puede ayudar a visualizar múltiples variables entre sí.
enredo(íris,col = brewer.pal(3,"Set1"))
Você pode estar pensando que eu não incluí gráficos de pizza na lista de gráficos básicos. Isso é intencional, Não perca. Isso ocorre porque os profissionais de visualização de dados desaprovam o uso de gráficos de pizza para representar dados.. Isso ocorre porque o olho humano não consegue visualizar distâncias circulares com a mesma precisão da distância linear.. Em poucas palavras, tudo o que pode ser colocado em um gráfico de pizza é melhor representado como um gráfico de linha. Porém, se você gosta do gráfico de pizza, EUA:
torta(tabela(iris$Espécies))
Aqui está uma lista completa de todos os gráficos que aprendemos até agora:
Você deve ter notado que em alguns dos gráficos, seus títulos foram truncados porque coloquei muitos gráficos na mesma tela. Para mudar isso, você pode simplesmente alterar o parâmetro 'mfrow’ para o par.
Visualizações avançadas
O que é Hexbin Binning?
Podemos usar o pacote hexbin caso tenhamos vários pontos no mesmo lugar (trama demais). o agrupamentoo "agrupamento" É um conceito que se refere à organização de elementos ou indivíduos em grupos com características ou objetivos comuns. Este processo é usado em várias disciplinas, incluindo psicologia, Educação e biologia, para facilitar a análise e compreensão de comportamentos ou fenômenos. No campo educacional, por exemplo, O agrupamento pode melhorar a interação e o aprendizado entre os alunos, incentivando o trabalho.. hexagonal es una forma de histograma bivariado útil para visualizar la estructura en conjuntos de datos con n grande. Aqui está o código:
>biblioteca(hexbin) >a = hexbin(diamantes $ preço,diamantes $ quilate,xbins = 40) >biblioteca(RColorBrewer) >enredo(uma)
Também podemos criar uma paleta de cores e, em seguida, usar a função de plotagem do hexbin para um melhor efeito visual. Aqui está o código:
>biblioteca(RColorBrewer) >rf <- colorRampPalette(rev(brewer.pal(40,'Set3'))) >hexbinplot(diamantes $ preço ~ diamantes $ quilate, dados = diamantes, colramp = rf)
Parcela de mosaico
Um gráfico de mosaico pode ser usado para traçar dados categóricos de forma muito eficaz com a área dos dados mostrando as proporções relativas.
> dados(HairEyeColor) > plotagem de mosaico(HairEyeColor)
Mapa de calor
Los mapas de calor le permiten realizar análisis de datos exploratorios con dos dimensiones como eje y la tercera dimensão"Dimensão" É um termo usado em várias disciplinas, como a física, Matemática e filosofia. Refere-se à extensão em que um objeto ou fenômeno pode ser analisado ou descrito. Em física, por exemplo, fala-se de dimensões espaciais e temporais, enquanto em matemática pode se referir ao número de coordenadas necessárias para representar um espaço. Compreendê-lo é fundamental para o estudo e... mostrada por la intensidad del color. Porém, você precisa converter o conjunto de dados em um formato de matriz. Aqui está o código:
> mapa de calor(as.matrix(mtcars))
Você pode usar o comando de imagem () também para este tipo de visualização, como:
> imagem(as.matrix(b[2:7]))
Como resumir um monte de dados?
você pode usar a função tableplot do pacote de tabplot para resumir rapidamente uma grande quantidade de dados
Exibir mapa
O mais recente em R é a visualização de dados através de bibliotecas Javascript. Folheto é uma das bibliotecas JavaScript de código aberto mais populares para mapas interativos. Se baseia em https://rstudio.github.io/leaflet/
Você pode instalá-lo diretamente do github usando:
devtools::install_github("rstudio/folheto")
O código do mapa acima é bastante simples:
biblioteca(magrittr)
biblioteca(folheto)
m <- folheto() %>%
addTiles() %>% # Add default OpenStreetMap map tiles
addMarkers(lng=77.2310, lat=28,6560, popup ="A deliciosa comida de chandni chowk")
m # Imprima o mapa
Gráficos 3D
Uma das maneiras mais fáceis de impressionar alguém com recursos de R é criando um gráfico 3D em R sem escrever QUALQUER linha de código e em 3 minutos. É pedir muito?
Usamos o pacote R Commander que atua como uma interface gráfica do usuário (GUI). Estas são as etapas:
- Basta instalar o pacote Rcmdr
- Use a opção de plotagem 3D de dentro dos gráficos
O código a seguir não foi escrito pelo usuário, mas é gerado automaticamente.
Observação: Quando trocamos os eixos do gráfico, você deve ver os gráficos com o respectivo código como passamos os rótulos dos eixos usando o xlab, ylab, e o título do gráfico usando Principal e cor usando o parâmetro col.
>dados(íris, pacote ="conjuntos de dados") >scatter3d(Pétala.Largura ~ Pétala.Comprimento + Sépala.Comprimento|Espécies, data = iris, fit ="linear" >residuais = TRUE, paralelo = FALSO, bg ="Preto", axis.scales = TRUE, grade = TRUE, elipsóide = FALSO)
Você também pode fazer gráficos 3D com o pacote Lattice. Rede também pode ser usada para xyplots. Aqui está o código:
>anexar(íris)# 3d dispersãoplot por nível de fator >nuvem(Sepal.Length~Sepal.width*Pétala.Comprimento|Espécies, principal ="3D Scatterplot por Espécies") >xyplot(Sepal.Largura ~ Sepal.Comprimento, íris, grupos = íris$Espécies, pch= 20)
Correlograma (GUI)
O correlogram nos ajuda a visualizar os dados em matrizes de correlação. Aqui está o código:
> cor(íris[1:4])
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Largura -0.1175698 1.0000000 -0.4284401 -0.3661259
Pétala.Comprimento 0.8717538 -0.4284401 1.0000000 0.9628654
Pétala.Largura 0.8179411 -0.3661259 0.9628654 1.0000000
> corrgrama(íris)
Existem três pacotes principais de GUI em R. RCommander com KMggplots, Chocalho para mineração de dados e Dedutor para visualização de dados. Estes ajudam a automatizar muitas tarefas.
Notas finais
Gostei muito de escrever sobre o artigo e as várias maneiras que R faz dele o melhor software de visualização de dados do mundo.. Enquanto Python pode progredir com o seaborn e ggplot, nada supera o imenso número de pacotes em R para exibir dados estatísticos.
Neste artigo, Eu discuti várias formas de visualização cobrindo os níveis básico ao avançado de tabelas e gráficos úteis para exibir os dados usando a Programação R..
Você achou este artigo útil? Deixe-me saber suas sugestões na seção de comentários abaixo..
Se você gostou do que acabou de ler e deseja continuar seu aprendizado sobre análise, inscreva-se em nossos e-mails, Siga-nos no Twitter ou como o nosso página do Facebook.
Relacionado
Postagens Relacionadas:
- Visualização de dados | Guia de visualização de dados para iniciantes
- Visualização de dados em Python | Visualização de dados para iniciantes
- Ferramentas de visualização de dados | Principais ferramentas de visualização de dados para dominar 2021
- Exemplos de exibição de dados ruins | Exemplos de exibição de dados ruins