Análise exploratória | Análise univariada, bivariada e multivariada

Conteúdo

Introdução

Os dados estão em toda parte ao nosso redor, em planilhas, em várias plataformas de mídia social, em formulários de pesquisa e muito mais. O processo de limpeza, transformação, interpretação, a análise e visualização desses dados para extrair informações úteis e obter informações valiosas para tomar decisões de negócios mais eficazes é chamada de Análise de Dados.

A análise de dados pode ser organizada em 6 tipos

  1. Análise exploratória
  2. Análise descritiva
  3. Análise inferencial
  4. Análise preditiva
  5. Análise causal
  6. Analise mecanistica

Aqui, vamos mergulhar fundo em Análise exploratória,

Análise exploratória

Análise preliminar de dados para descobrir relações entre as medidas nos dados e obter insights sobre as tendências, padrões e relacionamentos entre várias entidades presentes no conjunto de dados com a ajuda de estatísticas e ferramentas de visualização é chamado de Análise Exploratória de Dados (EDA). .

A análise exploratória de dados é classificada de duas maneiras diferentes, em que cada método é gráfico ou não gráfico. E logo, cada método é univariado, bivariado o multivariado.

Análise univariada

Uni significa um e variável significa variável, então na análise univariada, existe apenas uma variável confiável. O objetivo da análise univariada é derivar os dados, definir e resumir e analisar o padrão presente neles. Em um conjunto de dados, explore cada variável separadamente. É possível para dois tipos de variáveis: categórico e numérico.

Alguns padrões que podem ser facilmente identificados com a análise univariada são tendência central (meios de comunicação, moda e meio), Dispersão (classificação, variância), Quartis (intervalo interquartil) e desvio padrão.

Dados univariados podem ser descritos por:

Ø Tabelas de distribuição de freqüência

A tabela de distribuição de frequência reflete a frequência com que uma ocorrência ocorreu nos dados. Dá uma breve ideia dos dados e facilita a localização de padrões.

Exemplo:

A lista de pontuações de QI é: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.

Intervalo de QINúmero
118-1253
126-1337
134-1414
142-1492
150-1571

Ø Gráfico de barras

O gráfico de barras é muito conveniente ao comparar categorias de dados ou diferentes grupos de dados. Ajuda a rastrear mudanças ao longo do tempo. É melhor para exibir dados discretos.

image10-9478352

Ø Histogramas

Os histogramas são semelhantes aos gráficos de barras e mostram as mesmas variáveis ​​categóricas na categoria de dados. Os histogramas exibem essas categorias como contêineres que indicam o número de pontos de dados em um intervalo.. É melhor para visualizar dados contínuos.

image11-3900034

Ø Gráfico de setores

Os gráficos de pizza são usados ​​principalmente para entender como um grupo é dividido em partes menores. O bolo inteiro representa o 100 por cento e porções denotam o tamanho relativo dessa categoria particular.

image14-5304008

Ø Polígonos de frequência

Semelhante a histogramas, um polígono de frequência é usado para comparar conjuntos de dados ou mostrar a distribuição de frequência cumulativa.

image6-1-3679285

Análise bivariada

Bi significa dois e variável significa variável, pelo que aqui estão duas variáveis. A análise está relacionada com a causa e a relação entre as duas variáveis. Existem três tipos de análise bivariada.

Análise bivariada de duas variáveis ​​numéricas (Numérico-Numérico)

Ø Gráfico de dispersão

UMA O gráfico de dispersão representa dados individuais usando pontos. Esses gráficos facilitam ver se duas variáveis ​​estão relacionadas entre si.. O padrão resultante indica o tipo (linear ou não linear) e a força da relação entre duas variáveis.

image8-2-1095367

Ø Correlação linear

Linear Correlation representa a força de uma relação linear entre duas variáveis ​​numéricas. Se não houver correlação entre as duas variáveis, não há tendência de mudança junto com os valores da segunda quantidade.

image13-8709111

Aqui, r mede a força de uma relação linear e está sempre entre -1 e 1 Onde -1 denota uma correlação linear negativa perfeita e +1 denota uma correlação linear positiva perfeita e zero indica nenhuma correlação linear.image4-1-4052764

Análise bivariada de duas variáveis ​​categóricas (Categórico-Categórico)

Ø Teste qui-quadrado

O teste do qui-quadrado é usado para determinar a associação entre variáveis ​​categóricas. É calculado com base na diferença entre as frequências esperadas e as frequências observadas em uma ou mais categorias da tabela de frequência. Uma probabilidade de zero indica uma dependência completa entre duas variáveis ​​categóricas e uma probabilidade de um indica que duas variáveis ​​categóricas são completamente independentes..

Aqui, o subscrito c indica os graus de liberdade, O indica o valor observado e E indica o valor esperado.

image12-8200380

Análise bivariada de um variável numérico e um categórico (Numérico-categórico)

Ø Teste Z e teste t

Os testes Z e T são importantes para calcular se a diferença entre uma amostra e uma população é substancial..

image1-8687716

Se a probabilidade de Z for pequena, a diferença entre as duas médias é mais significativa.

Teste T

image9-2150508

Se o tamanho da amostra for grande o suficiente, nós usamos um teste Z, e para um pequeno tamanho de amostra, nós usamos um teste T.

Ø ANÁLISE DE VARIAÇÃO (ANOVA)

O teste ANOVA é usado para determinar se há uma diferença significativa entre as médias de mais de dois grupos que são estatisticamente diferentes um do outro.. Essa análise é apropriada para comparar as médias de uma variável numérica para mais de duas categorias de uma variável categórica..

image2-1-2645045

Analisis multivariável

A análise multivariada é necessária quando mais de duas variáveis ​​devem ser analisadas simultaneamente. É uma tarefa extremamente difícil para o cérebro humano visualizar uma relação entre 4 variáveis ​​em um gráfico e, portanto, a análise multivariada é usada para estudar conjuntos de dados mais complexos. Tipos de análise multivariada incluem análise de cluster, análise fatorial, múltiplas análises de regressão, análise do componente principal, etc. Há mais de 20 diferentes maneiras de realizar análises multivariadas e qual escolher depende do tipo de dados e do objetivo final a ser alcançado. As formas mais comuns são:

Ø Análise de cluster

A análise de cluster classifica diferentes objetos em clusters de modo que a similaridade entre dois objetos do mesmo grupo seja máxima e mínima, caso contrário. Usado quando as linhas e colunas do A tabela de dados representa as mesmas unidades e a medida representa a distância ou similaridade.

image7-3792319

Ø Análise do componente principal (PCA)

Análise do componente principal (o PCA) usado para reduzir a dimensionalidade de uma tabela de dados com um grande número de medidas inter-relacionadas. Aqui, as variáveis ​​originais tornam-se um novo conjunto de variáveis, que são conhecidos como “Componentes principais” de análise de componente principal.

PCA é usado para o conjunto de dados mostrando multicolinearidade. Embora as estimativas de mínimos quadrados sejam tendenciosas, a distância entre as variações e seu valor real pode ser muito grande. Então, PCA adiciona algum viés e reduz o erro padrão para o modelo de regressão.

image3-1-1482659

Ø Análise de correspondência

A análise de correspondência usando dados de uma tabela de contingência mostra as relações relativas entre dois grupos diferentes de variáveis. Uma tabela de contingência é uma tabela 2D com linhas e colunas como grupos de variáveis.

image5-1-7331464

conclusão

Espero que agora você tenha um melhor entendimento das várias técnicas usadas na análise univariada, bivariada e multivariada.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.