Introdução
El análisis exploratorio de datos es una de las mejores prácticas que se utilizan en la ciencia de datos en la actualidad. Al comenzar una carrera en ciencia de datos, las personas generalmente no conocen la diferencia entre el análisis de datos y el análisis de datos exploratorio. No hay una gran diferencia entre los dos, pero ambos tienen propósitos diferentes.
Análise exploratória de dados (EDA): el análisis de datos exploratorios es un complemento Estatística inferencial, que tiende a ser bastante rígido con reglas y fórmulas. En un nivel avanzado, EDA implica mirar y describir el conjunto de datos desde diferentes ángulos y luego resumirlo.
Analise de dados: el análisis de datos es la estadística y la probabilidad de descubrir tendencias en el conjunto de datos. Se utiliza para mostrar datos históricos mediante el uso de algunas herramientas de análisis. Ayuda a desglosar la información para transformar métricas, hechos y cifras en iniciativas de mejora.
Análise exploratória de dados (EDA)
Exploraremos un conjunto de datos y realizaremos el análisis de datos exploratorio en Python. Puede consultar nuestro curso de python en línea para subir a bordo con Python.
Los principales temas que se cubrirán son los siguientes:
– Manejar valor faltante
– Remover duplicatas
– Tratamiento de valores atípicos
– NormalizaçãoLa normalización es un proceso fundamental en diversas disciplinas, que busca establecer estándares y criterios uniformes para mejorar la calidad y la eficiencia. En contextos como la ingeniería, la educación y la administración, la normalización facilita la comparación, la interoperabilidad y la comprensión mutua. Al implementar normas, se promueve la cohesión y se optimizan recursos, lo que contribuye al desarrollo sostenible y a la mejora continua de los procesos.... y escalado (variables numéricas)
– Codificação de variáveis categóricas (variáveis falsas)
– Análise bivariada
# Importação de bibliotecas
# Carregando o conjunto de dados
Cargaremos el archivo de Excel de autos EDA usando pandas. Para isto, usaremos el archivo read_excel.
# Exploración básica de datos
Nesta etapa, realizaremos las siguientes operaciones para verificar de qué se compone el conjunto de datos. Comprobaremos las siguientes cosas:
– jefe del conjunto de datos
– la forma del conjunto de datos
– informações do conjunto de dados
– retomar del conjunto de datos
- La función de cabeza le dirá los mejores registros en el conjunto de datos. Por padrão, Python le muestra solo los 5 registros principales.
El atributo de forma nos dice una serie de observaciones y variables que tenemos en el conjunto de datos. Se utiliza para verificar la dimensão"Dimensão" É um termo usado em várias disciplinas, como a física, Matemática e filosofia. Refere-se à extensão em que um objeto ou fenômeno pode ser analisado ou descrito. Em física, por exemplo, fala-se de dimensões espaciais e temporais, enquanto em matemática pode se referir ao número de coordenadas necessárias para representar um espaço. Compreendê-lo é fundamental para o estudo e... dos dados. El conjunto de datos de automóviles tiene 303 observações e 13 variables en el conjunto de datos.
informação () se utiliza para verificar la información sobre los datos y los tipos de datos de cada atributo respectivo.
Al observar los datos en la función principal y en la información, sabemos que la variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... Ingresos y el tiempo de viaje son de tipo de datos flotantes en lugar del objeto. Entonces lo convertiremos en el flotador. O que mais, hay algunos valores no válidos como @@ y ‘*‘en los datos que trataremos como valores perdidos.
El método descrito ayudará a ver cómo se han distribuido los datos para valores numéricos. Podemos ver claramente el valor mínimo, valores medios, diferentes valores de percentiles y valores máximos.
Manejo del valor faltante
Podemos ver que tenemos varios valores perdidos en las respectivas columnas. Hay varias formas de tratar los valores perdidos en el conjunto de datos. Y qué técnica usar cuando realmente depende del tipo de datos con los que está tratando.
- Elimina los valores perdidos: neste caso, eliminamos los valores perdidos de esas variables. En caso de que falten muy pocos valores, puede eliminarlos.
- Imputar con valor medio: para la columna numérica, puede reemplazar los valores faltantes con valores medios. Antes de reemplazar con el valor medio, es recomendable verificar que la variable no debe tener valores extremos .ie valores atípicos.
- Imputar con valor mediano: para la columna numérica, también puede reemplazar los valores faltantes con valores medianos. En caso de que tenga valores extremos, como valores atípicos, es aconsejable utilizar el método de la medianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos.....
- Imputar con valor de modo: para la columna categórica, puede reemplazar los valores faltantes con valores de modo, quer dizer, los frecuentes.
Neste exercício, reemplazaremos las columnas numéricas con valores medianos y, para las columnas categóricas, eliminaremos los valores faltantes.
Manejo de registros duplicados
Dado que tenemos 14 registros duplicados en los datos, lo eliminaremos del conjunto de datos para obtener solo registros distintos. Después de eliminar el duplicado, comprobaremos si los duplicados se han eliminado del conjunto de datos o no.
Tratamento de outliers
Los valores atípicos, al ser las observaciones más extremas, pueden incluir el máximo o mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Porém, el máximo y el mínimo de la muestra no siempre son valores atípicos porque pueden no estar inusualmente lejos de otras observaciones.
Generalmente identificamos valores atípicos con la ayuda del diagrama de caja, por lo que aquí el diagrama de caja muestra algunos de los puntos de datos fuera del rango de los datos.
Mirando el diagrama de caja, parece que las variables INGRESO, tienen valores atípicos presentes en las variables. Estos valores atípicos deben tenerse en cuenta y hay varias formas de tratarlos:
- Elimina el valor atípico
- Reemplazar el valor atípico usando el IQR
#Boxplot Después de eliminar el valor atípico
Análise bivariada
Cuando hablamos de análisis bivariado, significa analizar 2 variáveis. Como sabemos que hay variables numéricas y categóricas, hay una forma de analizar estas variables como se muestra a continuación:
Numérico vs numérico
1. Diagrama de dispersãoO gráfico de dispersão é uma ferramenta gráfica usada em estatística para visualizar a relação entre duas variáveis. Consiste em um conjunto de pontos em um plano cartesiano, onde cada ponto representa um par de valores correspondentes às variáveis analisadas. Este tipo de gráfico permite identificar padrões, Tendências e possíveis correlações, facilitando a interpretação dos dados e a tomada de decisão com base nas informações visuais apresentadas....
2. Gráfico de linhaEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo...
3. Mapa de caloruma "mapa de calor" es una representación gráfica que utiliza colores para mostrar la densidad de datos en un área específica. Comúnmente utilizado en análisis de datos, marketing y estudios de comportamiento, este tipo de visualización permite identificar patrones y tendencias rápidamente. A través de variaciones cromáticas, los mapas de calor facilitan la interpretación de grandes volúmenes de información, ayudando a la toma de decisiones informadas.... para la correlación
4. Parcela conjuntaCategórico vs Numérico
1. Gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad....
2. Moldura de violino
3. Diagrama de caja categórico
4.parcela tibiaDos variables categóricas
1. Gráfico de barras
2. Gráfico de barras agrupadas
3. Gráfico de puntos
Si necesitamos encontrar la correlación-
Normalizar y escalar
Frequentemente, las variables del conjunto de datos son de diferentes escalas, quer dizer, una variable está en millones y otras en solo 100. Por exemplo, em nosso conjunto de dados, la renta tiene valores en miles y la edad en solo dos dígitos. Dado que los datos de estas variables son de diferentes escalas, es difícil comparar estas variables.
La escala de características (también conocida como normalización de datos) es el método utilizado para estandarizar el rango de características de los datos. Dado que el rango de valores de los datos puede variar ampliamente, se convierte en un paso necesario en el preprocesamiento de datos mientras se utilizan algoritmos de aprendizaje automático.
Neste método, convertimos variables con diferentes escalas de medidas en una sola escala. StandardScaler normaliza los datos utilizando la fórmula (x-mean) / Desvio padrão. Haremos esto solo para las variables numéricas.
CODIFICACIÓN
One-Hot-Encoding se usa para crear variables ficticias para reemplazar las categorías en una variable categórica en características de cada categoría y representarla usando 1 o 0 según la presencia o ausencia del valor categórico en el registro.
Esto es necesario, ya que los algoritmos de aprendizaje automático solo funcionan con datos numéricos. Por eso es necesario convertir la columna categórica en numérica.
get_dummies es el método que crea una variable ficticia para cada variable categórica.
Sobre o autor
Ritika Singh – Científica de datos
Soy un científico de datos de profesión y un blogger por pasión. He trabajado en proyectos de aprendizaje automático durante más de 2 anos. Aquí encontrará artículos sobre “Machine Learning, Estatisticas, Aprendizado Profundo, PNL e Inteligencia Artificial”.