Análisis de datos exploratorios (EDA) desde cero

Introducción

El análisis exploratorio de datos es una de las mejores prácticas que se utilizan en la ciencia de datos en la actualidad. Al comenzar una carrera en ciencia de datos, las personas generalmente no conocen la diferencia entre el análisis de datos y el análisis de datos exploratorio. No hay una gran diferencia entre los dos, pero ambos tienen propósitos diferentes.

Análisis de datos exploratorios (EDA): el análisis de datos exploratorios es un complemento Estadística inferencial, que tiende a ser bastante rígido con reglas y fórmulas. En un nivel avanzado, EDA implica mirar y describir el conjunto de datos desde diferentes ángulos y luego resumirlo.

Análisis de datos: el análisis de datos es la estadística y la probabilidad de descubrir tendencias en el conjunto de datos. Se utiliza para mostrar datos históricos mediante el uso de algunas herramientas de análisis. Ayuda a desglosar la información para transformar métricas, hechos y cifras en iniciativas de mejora.

Análisis de datos exploratorios (EDA)

Exploraremos un conjunto de datos y realizaremos el análisis de datos exploratorio en Python. Puede consultar nuestro curso de python en línea para subir a bordo con Python.

Los principales temas que se cubrirán son los siguientes:

– Manejar valor faltante
– Eliminar duplicados
– Tratamiento de valores atípicos
– NormalizaciónLa normalización es un proceso fundamental en diversas disciplinas, que busca establecer estándares y criterios uniformes para mejorar la calidad y la eficiencia. En contextos como la ingeniería, la educación y la administración, la normalización facilita la comparación, la interoperabilidad y la comprensión mutua. Al implementar normas, se promueve la cohesión y se optimizan recursos, lo que contribuye al desarrollo sostenible y a la mejora continua de los procesos.... y escalado (variables numéricas)
– Codificación de variables categóricas (variables ficticias)
– Análisis bivariado

# Importación de bibliotecas

# Cargando el conjunto de datos

Cargaremos el archivo de Excel de autos EDA usando pandas. Para esto, usaremos el archivo read_excel.

# Exploración básica de datos

En este paso, realizaremos las siguientes operaciones para verificar de qué se compone el conjunto de datos. Comprobaremos las siguientes cosas:

– jefe del conjunto de datos
– la forma del conjunto de datos
– información del conjunto de datos
– resumen del conjunto de datos

La función de cabeza le dirá los mejores registros en el conjunto de datos. De forma predeterminada, Python le muestra solo los 5 registros principales.
El atributo de forma nos dice una serie de observaciones y variables que tenemos en el conjunto de datos. Se utiliza para verificar la dimensión"Dimensión" es un término que se utiliza en diversas disciplinas, como la física, la matemática y la filosofía. Se refiere a la medida en la que un objeto o fenómeno puede ser analizado o descrito. En física, por ejemplo, se habla de dimensiones espaciales y temporales, mientras que en matemáticas puede referirse a la cantidad de coordenadas necesarias para representar un espacio. Su comprensión es fundamental para el estudio y... de los datos. El conjunto de datos de automóviles tiene 303 observaciones y 13 variables en el conjunto de datos.
info () se utiliza para verificar la información sobre los datos y los tipos de datos de cada atributo respectivo.

Al observar los datos en la función principal y en la información, sabemos que la variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... Ingresos y el tiempo de viaje son de tipo de datos flotantes en lugar del objeto. Entonces lo convertiremos en el flotador. Además, hay algunos valores no válidos como @@ y ‘*‘en los datos que trataremos como valores perdidos.
El método descrito ayudará a ver cómo se han distribuido los datos para valores numéricos. Podemos ver claramente el valor mínimo, valores medios, diferentes valores de percentiles y valores máximos.

Manejo del valor faltante

Podemos ver que tenemos varios valores perdidos en las respectivas columnas. Hay varias formas de tratar los valores perdidos en el conjunto de datos. Y qué técnica usar cuando realmente depende del tipo de datos con los que está tratando.

Elimina los valores perdidos: en este caso, eliminamos los valores perdidos de esas variables. En caso de que falten muy pocos valores, puede eliminarlos.
Imputar con valor medio: para la columna numérica, puede reemplazar los valores faltantes con valores medios. Antes de reemplazar con el valor medio, es recomendable verificar que la variable no debe tener valores extremos .ie valores atípicos.
Imputar con valor mediano: para la columna numérica, también puede reemplazar los valores faltantes con valores medianos. En caso de que tenga valores extremos, como valores atípicos, es aconsejable utilizar el método de la medianaLa mediana es una medida estadística que representa el valor central de un conjunto de datos ordenados. Para calcularla, se organizan los datos de menor a mayor y se identifica el número que se encuentra en el medio. Si hay un número par de observaciones, se promedia los dos valores centrales. Este indicador es especialmente útil en distribuciones asimétricas, ya que no se ve afectado por valores extremos.....
Imputar con valor de modo: para la columna categórica, puede reemplazar los valores faltantes con valores de modo, es decir, los frecuentes.

En este ejercicio, reemplazaremos las columnas numéricas con valores medianos y, para las columnas categóricas, eliminaremos los valores faltantes.

Manejo de registros duplicados

Dado que tenemos 14 registros duplicados en los datos, lo eliminaremos del conjunto de datos para obtener solo registros distintos. Después de eliminar el duplicado, comprobaremos si los duplicados se han eliminado del conjunto de datos o no.

Manejo de valores atípicos

Los valores atípicos, al ser las observaciones más extremas, pueden incluir el máximo o mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y el mínimo de la muestra no siempre son valores atípicos porque pueden no estar inusualmente lejos de otras observaciones.

Generalmente identificamos valores atípicos con la ayuda del diagrama de caja, por lo que aquí el diagrama de caja muestra algunos de los puntos de datos fuera del rango de los datos.

Mirando el diagrama de caja, parece que las variables INGRESO, tienen valores atípicos presentes en las variables. Estos valores atípicos deben tenerse en cuenta y hay varias formas de tratarlos:

Elimina el valor atípico
Reemplazar el valor atípico usando el IQR

#Boxplot Después de eliminar el valor atípico

Análisis bivariado

Cuando hablamos de análisis bivariado, significa analizar 2 variables. Como sabemos que hay variables numéricas y categóricas, hay una forma de analizar estas variables como se muestra a continuación:

Numérico vs numérico

1. Diagrama de dispersiónEl diagrama de dispersión es una herramienta gráfica utilizada en estadística para visualizar la relación entre dos variables. Consiste en un conjunto de puntos en un plano cartesiano, donde cada punto representa un par de valores correspondientes a las variables analizadas. Este tipo de gráfico permite identificar patrones, tendencias y posibles correlaciones, facilitando la interpretación de datos y la toma de decisiones basadas en la información visual presentada....
2. Gráfico de líneasEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo...
3. Mapa de calorUn "mapa de calor" es una representación gráfica que utiliza colores para mostrar la densidad de datos en un área específica. Comúnmente utilizado en análisis de datos, marketing y estudios de comportamiento, este tipo de visualización permite identificar patrones y tendencias rápidamente. A través de variaciones cromáticas, los mapas de calor facilitan la interpretación de grandes volúmenes de información, ayudando a la toma de decisiones informadas.... para la correlación
4. Parcela conjunta
Categórico vs Numérico

1. Gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad....
2. Trama de violín
3. Diagrama de caja categórico
4.parcela tibia
Dos variables categóricas

1. Gráfico de barras
2. Gráfico de barras agrupadas
3. Gráfico de puntos

Si necesitamos encontrar la correlación-

Normalizar y escalar

A menudo, las variables del conjunto de datos son de diferentes escalas, es decir, una variable está en millones y otras en solo 100. Por ejemplo, en nuestro conjunto de datos, la renta tiene valores en miles y la edad en solo dos dígitos. Dado que los datos de estas variables son de diferentes escalas, es difícil comparar estas variables.

La escala de características (también conocida como normalización de datos) es el método utilizado para estandarizar el rango de características de los datos. Dado que el rango de valores de los datos puede variar ampliamente, se convierte en un paso necesario en el preprocesamiento de datos mientras se utilizan algoritmos de aprendizaje automático.

En este método, convertimos variables con diferentes escalas de medidas en una sola escala. StandardScaler normaliza los datos utilizando la fórmula (x-mean) / desviación estándar. Haremos esto solo para las variables numéricas.

CODIFICACIÓN

One-Hot-Encoding se usa para crear variables ficticias para reemplazar las categorías en una variable categórica en características de cada categoría y representarla usando 1 o 0 según la presencia o ausencia del valor categórico en el registro.

Esto es necesario, ya que los algoritmos de aprendizaje automático solo funcionan con datos numéricos. Por eso es necesario convertir la columna categórica en numérica.

get_dummies es el método que crea una variable ficticia para cada variable categórica.

Sobre el Autor

Ritika Singh – Científica de datos

Soy un científico de datos de profesión y un blogger por pasión. He trabajado en proyectos de aprendizaje automático durante más de 2 años. Aquí encontrará artículos sobre “Machine Learning, Estadísticas, Deep Learning, PNL e Inteligencia Artificial”.

Relacionado

Posteos recientes

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.

Análisis de datos exploratorios (EDA) desde cero

Contenidos

Introducción