Introdução
Os dados estão em toda parte ao nosso redor, em planilhas, em várias plataformas de mídia social, em formulários de pesquisa e muito mais. O processo de limpeza, transformação, interpretação, a análise e visualização desses dados para extrair informações úteis e obter informações valiosas para tomar decisões de negócios mais eficazes é chamada de Análise de Dados.
A análise de dados pode ser organizada em 6 tipos
- Análise exploratória
- Análise descritiva
- Análise inferencial
- Análise preditiva
- Análise causal
- Analise mecanistica
Aqui, vamos mergulhar fundo em Análise exploratória,
Análise exploratória
Análise preliminar de dados para descobrir relações entre as medidas nos dados e obter insights sobre as tendências, padrões e relacionamentos entre várias entidades presentes no conjunto de dados com a ajuda de estatísticas e ferramentas de visualização é chamado de Análise Exploratória de Dados (EDA). .
A análise exploratória de dados é classificada de duas maneiras diferentes, em que cada método é gráfico ou não gráfico. E logo, cada método é univariado, bivariado o multivariado.
Análise univariada
Uni significa um e variável significa variável, então na análise univariada, existe apenas uma variável confiável. O objetivo da análise univariada é derivar os dados, definir e resumir e analisar o padrão presente neles. Em um conjunto de dados, explore cada variável separadamente. É possível para dois tipos de variáveis: categórico e numérico.
Alguns padrões que podem ser facilmente identificados com a análise univariada são tendência central (meios de comunicação, moda e meio), Dispersão (classificação, variância), Quartis (intervalo interquartil) e desvio padrão.
Dados univariados podem ser descritos por:
Ø Tabelas de distribuição de freqüência
A tabela de distribuição de frequência reflete a frequência com que uma ocorrência ocorreu nos dados. Dá uma breve ideia dos dados e facilita a localização de padrões.
Exemplo:
A lista de pontuações de QI é: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.
Intervalo de QI | Número |
118-125 | 3 |
126-133 | 7 |
134-141 | 4 |
142-149 | 2 |
150-157 | 1 |
Ø Gráfico de barras
O gráfico de barras é muito conveniente ao comparar categorias de dados ou diferentes grupos de dados. Ajuda a rastrear mudanças ao longo do tempo. É melhor para exibir dados discretos.
Ø HistogramasHistogramas são representações gráficas que mostram a distribuição de um conjunto de dados. Eles são construídos dividindo o intervalo de valores em intervalos, o "Caixas", e contando quantos dados caem em cada intervalo. Essa visualização permite identificar padrões, tendências e variabilidade de dados de forma eficaz, facilitando a análise estatística e a tomada de decisões informadas em várias disciplinas....
Os histogramas são semelhantes aos gráficos de barras e mostram as mesmas variáveis categóricas na categoria de dados. Os histogramas exibem essas categorias como contêineres que indicam o número de pontos de dados em um intervalo.. É melhor para visualizar dados contínuos.
Ø Gráfico de setores
Os gráficos de pizza são usados principalmente para entender como um grupo é dividido em partes menores. O bolo inteiro representa o 100 por cento e porções denotam o tamanho relativo dessa categoria particular.
Ø Polígonos de frequência
Semelhante a histogramas, um polígono de frequência é usado para comparar conjuntos de dados ou mostrar a distribuição de frequência cumulativa.
Análise bivariada
Bi significa dois e variável significa variável, pelo que aqui estão duas variáveis. A análise está relacionada com a causa e a relação entre as duas variáveis. Existem três tipos de análise bivariada.
Análise bivariada de duas variáveis numéricas (Numérico-Numérico)
Ø Gráfico de dispersãoUm gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis numéricas usando pontos em um plano cartesiano. Cada eixo representa uma variável, e a localização de cada ponto indica seu valor em relação a ambos. Esse tipo de gráfico é útil para identificar padrões, Correlações e tendências nos dados, facilitando a análise e interpretação de relações quantitativas....
UMA O gráfico de dispersão representa dados individuais usando pontos. Esses gráficos facilitam ver se duas variáveis estão relacionadas entre si.. O padrão resultante indica o tipo (linear ou não linear) e a força da relação entre duas variáveis.
Ø Correlação linear
Linear Correlation representa a força de uma relação linear entre duas variáveis numéricas. Se não houver correlação entre as duas variáveis, não há tendência de mudança junto com os valores da segunda quantidade.
Aqui, r mede a força de uma relação linear e está sempre entre -1 e 1 Onde -1 denota uma correlação linear negativa perfeita e +1 denota uma correlação linear positiva perfeita e zero indica nenhuma correlação linear.
Análise bivariada de duas variáveis categóricas (Categórico-Categórico)
Ø Teste qui-quadrado
O teste do qui-quadrado é usado para determinar a associação entre variáveis categóricas. É calculado com base na diferença entre as frequências esperadas e as frequências observadas em uma ou mais categorias da tabela de frequência. Uma probabilidade de zero indica uma dependência completa entre duas variáveis categóricas e uma probabilidade de um indica que duas variáveis categóricas são completamente independentes..
Aqui, o subscrito c indica os graus de liberdade, O indica o valor observado e E indica o valor esperado.
Análise bivariada de um variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... numérico e um categórico (Numérico-categórico)
Ø Teste Z e teste t
Os testes Z e T são importantes para calcular se a diferença entre uma amostra e uma população é substancial..
Se a probabilidade de Z for pequena, a diferença entre as duas médias é mais significativa.
Teste T
Se o tamanho da amostra for grande o suficiente, nós usamos um teste Z, e para um pequeno tamanho de amostra, nós usamos um teste T.
Ø ANÁLISE DE VARIAÇÃO (ANOVA)
O teste ANOVA é usado para determinar se há uma diferença significativa entre as médias de mais de dois grupos que são estatisticamente diferentes um do outro.. Essa análise é apropriada para comparar as médias de uma variável numérica para mais de duas categorias de uma variável categórica..
Analisis multivariável
A análise multivariada é necessária quando mais de duas variáveis devem ser analisadas simultaneamente. É uma tarefa extremamente difícil para o cérebro humano visualizar uma relação entre 4 variáveis em um gráfico e, portanto, a análise multivariada é usada para estudar conjuntos de dados mais complexos. Tipos de análise multivariada incluem análise de cluster, análise fatorial, múltiplas análises de regressão, análise do componente principal, etc. Há mais de 20 diferentes maneiras de realizar análises multivariadas e qual escolher depende do tipo de dados e do objetivo final a ser alcançado. As formas mais comuns são:
Ø Análise de cluster
A análise de cluster classifica diferentes objetos em clusters de modo que a similaridade entre dois objetos do mesmo grupo seja máxima e mínima, caso contrário. Usado quando as linhas e colunas do A tabela de dados representa as mesmas unidades e a medida representa a distância ou similaridade.
Ø Análise do componente principal (PCA)
Análise do componente principal (o PCA) usado para reduzir a dimensionalidade de uma tabela de dados com um grande número de medidas inter-relacionadas. Aqui, as variáveis originais tornam-se um novo conjunto de variáveis, que são conhecidos como “Componentes principais” de análise de componente principal.
PCA é usado para o conjunto de dados mostrando multicolinearidade. Embora as estimativas de mínimos quadrados sejam tendenciosas, a distância entre as variações e seu valor real pode ser muito grande. Então, PCA adiciona algum viés e reduz o erro padrão para o modelo de regressão.
Ø Análise de correspondência
A análise de correspondência usando dados de uma tabela de contingência mostra as relações relativas entre dois grupos diferentes de variáveis. Uma tabela de contingência é uma tabela 2D com linhas e colunas como grupos de variáveis.
conclusão
Espero que agora você tenha um melhor entendimento das várias técnicas usadas na análise univariada, bivariada e multivariada.
A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.
Relacionado
Postagens Relacionadas:
- Domínio da análise exploratória de dados (EDA) para entusiastas da ciência de dados
- Análise exploratória de dados usando técnicas de visualização de dados.
- Analytics vs Analytics | Análise de dados versus análise de dados, eles são semelhantes?
- Análise de série temporal | Qual é a série temporal? Análise de série temporal em Python