Dominio del análisis exploratorio de datos (EDA) para entusiastas de la ciencia de datos

Contenidos

Visión general

  • Enfoque paso a paso para realizar EDA
  • Recursos como blogs, MOOCS para familiarizarse con EDA
  • Familiarizarse con diversas técnicas de visualización de datos, gráficos y diagramas.
  • Demostración de algunos pasos con el fragmento de código de Python

¿Qué es lo que diferencia a un profesional de la ciencia de datos del otro?

No es aprendizaje automático, no es aprendizaje profundo, no es SQL, es análisis de datos exploratorio (EDA). Qué tan bueno es uno con la identificación de patrones / tendencias ocultos de los datos y qué tan valiosos son los conocimientos extraídos, es lo que diferencia a los profesionales de datos.

1. ¿Qué es el análisis de datos exploratorios?

El análisis exploratorio de datos es un enfoque para analizar conjuntos de datos para resumir sus características principales, a menudo utilizando gráficos estadísticos y otros métodos de visualización de datos.
EDA ayuda a los profesionales de la ciencia de datos de varias maneras: –

1 Obtener una mejor comprensión de los datos
2 Identificar varios patrones de datos
3 Comprender mejor el planteamiento del problema

[ Note: the dataset in this blog is being opted as iris dataset]

2. Comprobación de los detalles introductorios sobre los datos

El primer y más importante paso de cualquier análisis de datos, después de cargar el archivo de datos, debe consistir en verificar algunos detalles introductorios. como, no. De columnas, no. de filas, tipos de características (categóricas o numéricas), tipos de datos de entradas de columna.

Fragmento de código de Python

data.info ()


RangeIndex: 150 entradas, 0 a 149
Columnas de datos (5 columnas en total):
# Columna Tipo de recuento no nulo
– —— ————– —–
0 sepal_length 150 no nulo float64
1 sepal_width 150 float64 no nulo
2 petal_length 150 no nulo float64
3 petal_width 150 no nulo float64
4 especies 150 objeto no nulo
dtypes: float64 (4), objeto (1)
uso de memoria: 6.0+ KB

data.head () Para mostrar las primeras cinco filas

30861new20blog-8287175

data.tail () para mostrar las últimas cinco filas

40174blog2-6133290

3. Perspectiva estadística

Este paso debe realizarse para obtener detalles sobre varios datos estadísticos como media, desviación estándar, mediana, valor máximo, valor mínimo.

Fragmento de código de Python

data.describe ()

27711capture1-1679038

4. Limpieza de datos

Este es el paso más importante en EDA que implica eliminar filas / columnas duplicadas, llenar las entradas vacías con valores como la media / mediana de los datos, eliminar varios valores, eliminar entradas nulas

Comprobación de entradas nulas

Fragmento de código de Python

data.IsNull (). sum da el número de valores perdidos para cada variable

47799blog4-3722464

Eliminar entradas nulas

Fragmento de código de Python

data.dropna (axis = 0, inplace = True) Si hay entradas nulas

Rellenar valores en lugar de entradas nulas (si es una función numérica)

Los valores pueden ser la media, la mediana o cualquier número entero

Fragmento de código de Python

datos[“sepal_length”].fillna (valor = datos[“sepal_length”].mean (), inplace = True) si hay una entrada nula

Comprobación de duplicados

Fragmento de código de Python

data.duplicated (). sum () devuelve el número total de entradas duplicadas

Eliminar duplicados

Fragmento de código de Python

data.drop_duplicates (inplace = True)

5. Visualización de datos

La visualización de datos es el método de convertir datos sin procesar en una forma visual, como un mapa o gráfico, para que los datos sean más fáciles de entender y extraer información útil..

El objetivo principal de la visualización de datos es poner grandes conjuntos de datos en una representación visual. Es uno de los pasos importantes y sencillos cuando se trata de ciencia de datos.

Puede consultar el blog a continuación para obtener más detalles sobre la visualización de datos.

Varios tipos de análisis de visualización son:

una. Análisis univariado:

Esto muestra cada observación / distribución de datos en una sola variable de datos.. Se puede mostrar con la ayuda de varios diagramas como diagrama de dispersión, diagrama de líneas, diagrama de histograma (resumen), diagramas de caja, diagrama de violín, etc.

B. Análisis bi-variable:

Se realizan pantallas de análisis bivariante para revelar la relación entre dos variables de datos. También se puede mostrar con la ayuda de diagramas de dispersión, histogramas, mapas de calor, diagramas de caja, diagramas de violín, etc.

C. Analisis multivariable:

El análisis multivariado, como sugiere el nombre, se muestran para revelar la relación entre más de dos variables de datos.

Los diagramas de dispersión, histogramas, diagramas de caja, diagramas de violín se pueden utilizar para análisis multivariante

Varias parcelas

A continuación se muestran algunos de los gráficos que se pueden implementar para análisis univariante, bivariado y multivariado

una. Gráfico de dispersión

Fragmento de código de Python

plt.figure (figsize = (17,9))
plt.title (‘Comparación entre varias especies según la longitud y el ancho del sapel’)
sns.scatterplot (datos[‘sepal_length’],datos[‘sepal_width’], tono = datos[‘species’], s = 50)

39544b2-5963817

Para análisis multivariado

Fragmento de código de Python

sns.pairplot (data, hue = ”especie”, altura = 4)

71974bl4-3866710

B. Diagrama de caja

Diagrama de caja para ver cómo se distribuye la característica categórica «Especie» con las otras cuatro variables de entrada

Fragmento de código de Python

fig, axes = plt.subplots (2, 2, figsize = (16,9))
sns.boxplot (y = «petal_width», x = «especie», data = iris_data, orient = ‘v’, ax = axes[0, 0])
sns.boxplot (y = «petal_length», x = «especie», data = iris_data, orient = ‘v’, ax = axes[0, 1])
sns.boxplot (y = ”sepal_length”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 0])
sns.boxplot (y = «sepal_width», x = «especie», data = iris_data, orient = ‘v’, ax = ejes[1, 1])
plt.show ()

61799download203-8139265

C. Trama de violín

Más informativo que el diagrama de caja y muestra la distribución completa de los datos.

Fragmento de código de Python

fig, axes = plt.subplots (2, 2, figsize = (16,10))
sns.violinplot (y = ”petal_width”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[0, 0], inner = ‘cuartil’)
sns.violinplot (y = «petal_length», x = «especie», data = iris_data, orient = ‘v’, ax = ejes[0, 1], inner = ‘cuartil’)
sns.violinplot (y = ”sepal_length”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 0], inner = ‘cuartil’)
sns.violinplot (y = ”sepal_width”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 1], inner = ‘cuartil’)
plt.show ()

74915download205-2021386

D. Histogramas

Se puede utilizar para visualizar la función de densidad de probabilidad (PDF)

Fragmento de código de Python

sns.FacetGrid (iris_data, hue = ”especie”, altura = 5)
.map (sns.distplot, «petal_width»)
.add_legend ();

21544download207-8163074

Con esto termino este blog.
Hola a todos, Namaste
Me llamo Pranshu Sharma y soy un entusiasta de la ciencia de datos
Muchas gracias por tomarse su valioso tiempo para leer este blog. No dude en señalar cualquier error (después de todo, soy un aprendiz) y proporcionar los comentarios correspondientes o dejar un comentario.
Dhanyvaad !!
Realimentación:
Correo electrónico: [email protected]

Puede consultar el blog que se menciona a continuación para familiarizarse con el análisis de datos exploratorios.

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.