Visión general
- Enfoque paso a paso para realizar EDA
- Recursos como blogs, MOOCS para familiarizarse con EDA
- Familiarizarse con diversas técnicas de visualización de datos, gráficos y diagramas.
- Demostración de algunos pasos con el fragmento de código de Python
¿Qué es lo que diferencia a un profesional de la ciencia de datos del otro?
No es aprendizaje automático, no es aprendizaje profundo, no es SQL, es análisis de datos exploratorio (EDA). Qué tan bueno es uno con la identificación de patrones / tendencias ocultos de los datos y qué tan valiosos son los conocimientos extraídos, es lo que diferencia a los profesionales de datos.
1. ¿Qué es el análisis de datos exploratorios?
El análisis exploratorio de datos es un enfoque para analizar conjuntos de datos para resumir sus características principales, a menudo utilizando gráficos estadísticos y otros métodos de visualización de datos.
EDA ayuda a los profesionales de la ciencia de datos de varias maneras: –
1 Obtener una mejor comprensión de los datos
2 Identificar varios patrones de datos
3 Comprender mejor el planteamiento del problema
[ Note: the dataset in this blog is being opted as iris dataset]
2. Comprobación de los detalles introductorios sobre los datos
El primer y más importante paso de cualquier análisis de datos, después de cargar el archivo de datos, debe consistir en verificar algunos detalles introductorios. como, no. De columnas, no. de filas, tipos de características (categóricas o numéricas), tipos de datos de entradas de columna.
Fragmento de código de Python
data.info ()
RangeIndex: 150 entradas, 0 a 149
Columnas de datos (5 columnas en total):
# Columna Tipo de recuento no nulo
– —— ————– —–
0 sepal_length 150 no nulo float64
1 sepal_width 150 float64 no nulo
2 petal_length 150 no nulo float64
3 petal_width 150 no nulo float64
4 especies 150 objeto no nulo
dtypes: float64 (4), objeto (1)
uso de memoria: 6.0+ KB
data.head () Para mostrar las primeras cinco filas
data.tail () para mostrar las últimas cinco filas
3. Perspectiva estadística
Este paso debe realizarse para obtener detalles sobre varios datos estadísticos como media, desviación estándar, mediana, valor máximo, valor mínimo.
Fragmento de código de Python
data.describe ()
4. Limpieza de datos
Este es el paso más importante en EDA que implica eliminar filas / columnas duplicadas, llenar las entradas vacías con valores como la media / mediana de los datos, eliminar varios valores, eliminar entradas nulas
Comprobación de entradas nulas
Fragmento de código de Python
data.IsNull (). sum da el número de valores perdidos para cada variable
Eliminar entradas nulas
Fragmento de código de Python
data.dropna (axis = 0, inplace = True) Si hay entradas nulas
Rellenar valores en lugar de entradas nulas (si es una función numérica)
Los valores pueden ser la media, la mediana o cualquier número entero
Fragmento de código de Python
datos[“sepal_length”].fillna (valor = datos[“sepal_length”].mean (), inplace = True) si hay una entrada nula
Comprobación de duplicados
Fragmento de código de Python
data.duplicated (). sum () devuelve el número total de entradas duplicadas
Eliminar duplicados
Fragmento de código de Python
data.drop_duplicates (inplace = True)
5. Visualización de datos
La visualización de datos es el método de convertir datos sin procesar en una forma visual, como un mapa o gráfico, para que los datos sean más fáciles de entender y extraer información útil..
El objetivo principal de la visualización de datos es poner grandes conjuntos de datos en una representación visual. Es uno de los pasos importantes y sencillos cuando se trata de ciencia de datos.
Puede consultar el blog a continuación para obtener más detalles sobre la visualización de datos.
Varios tipos de análisis de visualización son:
una. Análisis univariado:
Esto muestra cada observación / distribución de datos en una sola variable de datos.. Se puede mostrar con la ayuda de varios diagramas como diagrama de dispersión, diagrama de líneas, diagrama de histograma (resumen), diagramas de caja, diagrama de violín, etc.
B. Análisis bi-variable:
Se realizan pantallas de análisis bivariante para revelar la relación entre dos variables de datos. También se puede mostrar con la ayuda de diagramas de dispersión, histogramas, mapas de calor, diagramas de caja, diagramas de violín, etc.
C. Analisis multivariable:
El análisis multivariado, como sugiere el nombre, se muestran para revelar la relación entre más de dos variables de datos.
Los diagramas de dispersión, histogramas, diagramas de caja, diagramas de violín se pueden utilizar para análisis multivariante
Varias parcelas
A continuación se muestran algunos de los gráficos que se pueden implementar para análisis univariante, bivariado y multivariado
una. Gráfico de dispersión
Fragmento de código de Python
plt.figure (figsize = (17,9))
plt.title (‘Comparación entre varias especies según la longitud y el ancho del sapel’)
sns.scatterplot (datos[‘sepal_length’],datos[‘sepal_width’], tono = datos[‘species’], s = 50)
Para análisis multivariado
Fragmento de código de Python
sns.pairplot (data, hue = ”especie”, altura = 4)
B. Diagrama de caja
Diagrama de caja para ver cómo se distribuye la característica categórica «Especie» con las otras cuatro variables de entrada
Fragmento de código de Python
fig, axes = plt.subplots (2, 2, figsize = (16,9))
sns.boxplot (y = «petal_width», x = «especie», data = iris_data, orient = ‘v’, ax = axes[0, 0])
sns.boxplot (y = «petal_length», x = «especie», data = iris_data, orient = ‘v’, ax = axes[0, 1])
sns.boxplot (y = ”sepal_length”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 0])
sns.boxplot (y = «sepal_width», x = «especie», data = iris_data, orient = ‘v’, ax = ejes[1, 1])
plt.show ()
C. Trama de violín
Más informativo que el diagrama de caja y muestra la distribución completa de los datos.
Fragmento de código de Python
fig, axes = plt.subplots (2, 2, figsize = (16,10))
sns.violinplot (y = ”petal_width”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[0, 0], inner = ‘cuartil’)
sns.violinplot (y = «petal_length», x = «especie», data = iris_data, orient = ‘v’, ax = ejes[0, 1], inner = ‘cuartil’)
sns.violinplot (y = ”sepal_length”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 0], inner = ‘cuartil’)
sns.violinplot (y = ”sepal_width”, x = “especie”, data = iris_data, orient = ‘v’, ax = axes[1, 1], inner = ‘cuartil’)
plt.show ()
D. Histogramas
Se puede utilizar para visualizar la función de densidad de probabilidad (PDF)
Fragmento de código de Python
sns.FacetGrid (iris_data, hue = ”especie”, altura = 5)
.map (sns.distplot, «petal_width»)
.add_legend ();
Con esto termino este blog.
Hola a todos, Namaste
Me llamo Pranshu Sharma y soy un entusiasta de la ciencia de datos
Muchas gracias por tomarse su valioso tiempo para leer este blog. No dude en señalar cualquier error (después de todo, soy un aprendiz) y proporcionar los comentarios correspondientes o dejar un comentario.
Dhanyvaad !!
Realimentación:
Correo electrónico: [email protected]
Puede consultar el blog que se menciona a continuación para familiarizarse con el análisis de datos exploratorios.
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.