Domínio da análise exploratória de dados (EDA) para entusiastas da ciência de dados

Conteúdo

Visão geral

  • Abordagem passo a passo para realizar EDA
  • Recursos como blogs, MOOCS para se familiarizar com EDA
  • Familiarize-se com as várias técnicas de visualização de dados, gráficos e diagramas.
  • Demonstração de algumas etapas com o snippet de código Python

O que diferencia um profissional de ciência de dados de outro?

Não é aprendizado de máquina, não é aprendizado profundo, não é SQL, é a análise exploratória de dados (EDA). Quão bom é alguém em identificar padrões / Tendências de dados ocultos e o valor dos insights que você obtém, é o que diferencia os profissionais de dados.

1. O que é análise exploratória de dados?

A análise exploratória de dados é uma abordagem para analisar conjuntos de dados para resumir suas características principais, frequentemente usando gráficos estatísticos e outros métodos de visualização de dados.
EDA ajuda os profissionais de ciência de dados de várias maneiras: –

1 Obtenha uma melhor compreensão dos dados
2 Identifique vários padrões de dados
3 Compreender melhor a declaração do problema

[ Observação: a conjunto de dados in this blog is being opted as iris dataset]

2. Verificando os detalhes introdutórios sobre os dados

A primeira e mais importante etapa de qualquer análise de dados, depois de carregar o arquivo de dados, deve consistir em verificar alguns detalhes introdutórios. O que, não. De colunas, não. de linhas, tipos de recursos (categóricas o numéricas), tipos de dados de entrada de coluna.

Snippet de código Python

data.info ()


RangeIndex: 150 ingressos, 0 uma 149
Colunas de dados (5 colunas no total):
# Coluna de tipo de contagem não nula
– —— ————– —–
0 sepal_length 150 não nulo float64
1 sepal_width 150 float64 não nulo
2 petal_length 150 não nulo float64
3 petal_width 150 não nulo float64
4 espécies 150 objeto não nulo
dtypes: float64 (4), objeto (1)
uso de memória: 6.0+ KB

data.head () Para exibir as primeiras cinco linhas

30861new20blog-8287175

data.tail () para mostrar as últimas cinco linhas

40174blog2-6133290

3. Perspectiva estatística

Esta etapa deve ser realizada para obter detalhes sobre vários dados estatísticos como a média, Desvio padrão, mediana, valor máximo, valor minimo.

Snippet de código Python

data.describe ()

27711capture1-1679038

4. Limpeza de dados

Esta é a etapa mais importante no EDA, que envolve a exclusão de linhas / colunas duplicadas, preencha entradas vazias com valores como média / mediana de dados, remover vários valores, remover entradas nulas

Verificando entradas nulas

Snippet de código Python

data.IsNull (). sum da el número de valores perdidos para cada variável

47799blog4-3722464

Remover entradas nulas

Snippet de código Python

data.dropna (eixo = 0, inplace = True) Se houver entradas nulas

Preencha os valores em vez de entradas nulas (se é uma função numérica)

Os valores podem ser a média, a mediana ou qualquer número inteiro

Snippet de código Python

dados[“Sepal_length”].Fillna (valor = dados[“Sepal_length”].quer dizer (), inplace = True) se houver uma entrada nula

Verificando duplicatas

Snippet de código Python

data.duplicated (). soma () retorna o número total de entradas duplicadas

Remover duplicatas

Snippet de código Python

data.drop_duplicates (inplace = True)

5. Visualização de dados

A visualização de dados é o método de conversão de dados brutos em uma forma visual, como um mapa ou gráfico, para tornar os dados mais fáceis de entender e extrair informações úteis..

O principal objetivo da visualização de dados é colocar grandes conjuntos de dados em uma representação visual. É uma das etapas importantes e fáceis quando se trata de ciência de dados.

Você pode verificar o blog abaixo para obter mais detalhes sobre visualização de dados.

Vários tipos de análise de visualização são:

uma. Análise univariada:

Isso mostra cada observação / distribuição de dados em uma única variável de dados.. Se puede mostrar con la ayuda de varios diagramas como Diagrama de dispersão, diagrama de linha, diagrama de histograma (resumo), plotagens de caixa, diagrama de violino, etc.

B. Análise bi-variável:

Telas de análise bivariada são realizadas para revelar a relação entre duas variáveis ​​de dados. Também pode ser mostrado com a ajuda de diagramas de dispersão, histogramas, mapas de calor, plotagens de caixa, diagramas de violino, etc.

C. Analisis multivariável:

Análise multivariada, como o nome sugere, são exibidos para revelar a relação entre mais de duas variáveis ​​de dados.

Diagramas de dispersão, histogramas, plotagens de caixa, diagramas de violino podem ser usados ​​para análise multivariada

Plotagens múltiplas

Abaixo estão alguns dos gráficos que podem ser implementados para análise univariada, bivariada e multivariada

uma. Gráfico de dispersão

Snippet de código Python

plt.figure (figsize = (17,9))
plt.title (‘Comparação entre várias espécies de acordo com o comprimento e largura do sapel’)
sns.scatterplot (dados[‘Sepal_length’],dados[‘Sepal_width’], tom = dados['espécies'], s = 50)

39544b2-5963817

Para análise multivariada

Snippet de código Python

sns.pairplot (dados, matiz = "espécie", altura = 4)

71974bl4-3866710

B. Box plot

Gráfico de caixa para ver como a característica categórica é distribuída “Espécies” com as outras quatro variáveis ​​de entrada

Snippet de código Python

FIG, axes = plt.subplots (2, 2, figsize = (16,9))
sns.boxplot (y = “petal_width”, x = “espécies”, data = iris_data, orient = ‘v’, ax = axes[0, 0])
sns.boxplot (y = “petal_length”, x = “espécies”, data = iris_data, orient = ‘v’, ax = axes[0, 1])
sns.boxplot (y = ”sepal_length”, x = "espécie", data = iris_data, orient = ‘v’, ax = axes[1, 0])
sns.boxplot (y = “sepal_width”, x = “espécies”, data = iris_data, orient = ‘v’, ax = ejes[1, 1])
plt.show ()

61799download203-8139265

C. Moldura de violino

Mais informativo do que o gráfico de caixa e mostra a distribuição completa dos dados.

Snippet de código Python

FIG, axes = plt.subplots (2, 2, figsize = (16,10))
sns.violinplot (y = ”petal_width”, x = "espécie", data = iris_data, orient = ‘v’, ax = axes[0, 0], interno = ‘quartil’)
sns.violinplot (y = “petal_length”, x = “espécies”, data = iris_data, orient = ‘v’, ax = ejes[0, 1], interno = ‘quartil’)
sns.violinplot (y = ”sepal_length”, x = "espécie", data = iris_data, orient = ‘v’, ax = axes[1, 0], interno = ‘quartil’)
sns.violinplot (y = ”sepal_width”, x = "espécie", data = iris_data, orient = ‘v’, ax = axes[1, 1], interno = ‘quartil’)
plt.show ()

74915download205-2021386

D. Histogramas

Pode ser usado para visualizar a função de densidade de probabilidade (PDF)

Snippet de código Python

sns.FacetGrid (iris_data, matiz = "espécie", altura = 5)
.mapa (sns.distplot, “petal_width”)
.add_legend ();

21544download207-8163074

Com isso eu termino este blog.
Olá a todos, Namaste
Chamo-me Pranshu Sharma e eu sou um entusiasta da ciência de dados
Muito obrigado por dedicar seu valioso tempo para ler este blog.. Sinta-se à vontade para apontar quaisquer erros (depois de tudo, eu sou um aprendiz) e fornecer os comentários correspondentes ou deixar um comentário.
Dhanyvaad !!
Comentários:
Correio eletrônico: [e-mail protegido]

Você pode consultar o blog mencionado abaixo para se familiarizar com a análise exploratória de dados.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.