Introducción
El análisis exploratorio de datos es una de las mejores prácticas que se utilizan en la ciencia de datos en la actualidad. Al comenzar una carrera en ciencia de datos, las personas generalmente no conocen la diferencia entre el análisis de datos y el análisis de datos exploratorio. No hay una gran diferencia entre los dos, pero ambos tienen propósitos diferentes.
Análisis de datos exploratorios (EDA): el análisis de datos exploratorios es un complemento Estadística inferencial, que tiende a ser bastante rígido con reglas y fórmulas. En un nivel avanzado, EDA implica mirar y describir el conjunto de datos desde diferentes ángulos y luego resumirlo.
Análisis de datos: el análisis de datos es la estadística y la probabilidad de descubrir tendencias en el conjunto de datos. Se utiliza para mostrar datos históricos mediante el uso de algunas herramientas de análisis. Ayuda a desglosar la información para transformar métricas, hechos y cifras en iniciativas de mejora.
Análisis de datos exploratorios (EDA)
Exploraremos un conjunto de datos y realizaremos el análisis de datos exploratorio en Python. Puede consultar nuestro curso de python en línea para subir a bordo con Python.
Los principales temas que se cubrirán son los siguientes:
– Manejar valor faltante
– Eliminar duplicados
– Tratamiento de valores atípicos
– Normalización y escalado (variables numéricas)
– Codificación de variables categóricas (variables ficticias)
– Análisis bivariado
# Importación de bibliotecas
# Cargando el conjunto de datos
Cargaremos el archivo de Excel de autos EDA usando pandas. Para esto, usaremos el archivo read_excel.
# Exploración básica de datos
En este paso, realizaremos las siguientes operaciones para verificar de qué se compone el conjunto de datos. Comprobaremos las siguientes cosas:
– jefe del conjunto de datos
– la forma del conjunto de datos
– información del conjunto de datos
– resumen del conjunto de datos
- La función de cabeza le dirá los mejores registros en el conjunto de datos. De forma predeterminada, Python le muestra solo los 5 registros principales.
El atributo de forma nos dice una serie de observaciones y variables que tenemos en el conjunto de datos. Se utiliza para verificar la dimensión de los datos. El conjunto de datos de automóviles tiene 303 observaciones y 13 variables en el conjunto de datos.
info () se utiliza para verificar la información sobre los datos y los tipos de datos de cada atributo respectivo.
Al observar los datos en la función principal y en la información, sabemos que la variable Ingresos y el tiempo de viaje son de tipo de datos flotantes en lugar del objeto. Entonces lo convertiremos en el flotador. Además, hay algunos valores no válidos como @@ y ‘*‘en los datos que trataremos como valores perdidos.
El método descrito ayudará a ver cómo se han distribuido los datos para valores numéricos. Podemos ver claramente el valor mínimo, valores medios, diferentes valores de percentiles y valores máximos.
Manejo del valor faltante
Podemos ver que tenemos varios valores perdidos en las respectivas columnas. Hay varias formas de tratar los valores perdidos en el conjunto de datos. Y qué técnica usar cuando realmente depende del tipo de datos con los que está tratando.
- Elimina los valores perdidos: en este caso, eliminamos los valores perdidos de esas variables. En caso de que falten muy pocos valores, puede eliminarlos.
- Imputar con valor medio: para la columna numérica, puede reemplazar los valores faltantes con valores medios. Antes de reemplazar con el valor medio, es recomendable verificar que la variable no debe tener valores extremos .ie valores atípicos.
- Imputar con valor mediano: para la columna numérica, también puede reemplazar los valores faltantes con valores medianos. En caso de que tenga valores extremos, como valores atípicos, es aconsejable utilizar el método de la mediana.
- Imputar con valor de modo: para la columna categórica, puede reemplazar los valores faltantes con valores de modo, es decir, los frecuentes.
En este ejercicio, reemplazaremos las columnas numéricas con valores medianos y, para las columnas categóricas, eliminaremos los valores faltantes.
Manejo de registros duplicados
Dado que tenemos 14 registros duplicados en los datos, lo eliminaremos del conjunto de datos para obtener solo registros distintos. Después de eliminar el duplicado, comprobaremos si los duplicados se han eliminado del conjunto de datos o no.
Manejo de valores atípicos
Los valores atípicos, al ser las observaciones más extremas, pueden incluir el máximo o mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y el mínimo de la muestra no siempre son valores atípicos porque pueden no estar inusualmente lejos de otras observaciones.
Generalmente identificamos valores atípicos con la ayuda del diagrama de caja, por lo que aquí el diagrama de caja muestra algunos de los puntos de datos fuera del rango de los datos.
Mirando el diagrama de caja, parece que las variables INGRESO, tienen valores atípicos presentes en las variables. Estos valores atípicos deben tenerse en cuenta y hay varias formas de tratarlos:
- Elimina el valor atípico
- Reemplazar el valor atípico usando el IQR
#Boxplot Después de eliminar el valor atípico
Análisis bivariado
Cuando hablamos de análisis bivariado, significa analizar 2 variables. Como sabemos que hay variables numéricas y categóricas, hay una forma de analizar estas variables como se muestra a continuación:
Numérico vs numérico
1. Diagrama de dispersión
2. Gráfico de líneas
3. Mapa de calor para la correlación
4. Parcela conjuntaCategórico vs Numérico
1. Gráfico de barras
2. Trama de violín
3. Diagrama de caja categórico
4.parcela tibiaDos variables categóricas
1. Gráfico de barras
2. Gráfico de barras agrupadas
3. Gráfico de puntos
Si necesitamos encontrar la correlación-
Normalizar y escalar
A menudo, las variables del conjunto de datos son de diferentes escalas, es decir, una variable está en millones y otras en solo 100. Por ejemplo, en nuestro conjunto de datos, la renta tiene valores en miles y la edad en solo dos dígitos. Dado que los datos de estas variables son de diferentes escalas, es difícil comparar estas variables.
La escala de características (también conocida como normalización de datos) es el método utilizado para estandarizar el rango de características de los datos. Dado que el rango de valores de los datos puede variar ampliamente, se convierte en un paso necesario en el preprocesamiento de datos mientras se utilizan algoritmos de aprendizaje automático.
En este método, convertimos variables con diferentes escalas de medidas en una sola escala. StandardScaler normaliza los datos utilizando la fórmula (x-mean) / desviación estándar. Haremos esto solo para las variables numéricas.
CODIFICACIÓN
One-Hot-Encoding se usa para crear variables ficticias para reemplazar las categorías en una variable categórica en características de cada categoría y representarla usando 1 o 0 según la presencia o ausencia del valor categórico en el registro.
Esto es necesario, ya que los algoritmos de aprendizaje automático solo funcionan con datos numéricos. Por eso es necesario convertir la columna categórica en numérica.
get_dummies es el método que crea una variable ficticia para cada variable categórica.
Sobre el Autor
Ritika Singh – Científica de datos
Soy un científico de datos de profesión y un blogger por pasión. He trabajado en proyectos de aprendizaje automático durante más de 2 años. Aquí encontrará artículos sobre “Machine Learning, Estadísticas, Deep Learning, PNL e Inteligencia Artificial”.