Introducción
Como todos sabemos, existen ciertos procesos para analizar datos. Primero, definimos el problema, luego extraemos los datos y los preparamos para el análisis. Antes de la ingeniería futura y la construcción de modelos, hay un paso importante.
El análisis exploratorio de datos se refiere al proceso crítico de realizar una investigación inicial sobre los datos para descubrir patrones, detectar anomalías y verificar suposiciones con la ayuda de estadísticas resumidas y representaciones gráficas. El análisis exploratorio de datos es un paso importante antes de comenzar a analizar o modelar los datos. Proporciona el contexto necesario para desarrollar un modelo apropiado e interpretar los resultados correctamente.
Veamos una implementación de R de muestra.
1. Descubrimiento de datos
En esta parte, descubrimos los tipos de variables y sus estadísticas de resumen en los datos. Primero, cargamos el conjunto de datos de USArrests en R. Luego imprimimos el conjunto de datos usando la función «headTail» que imprime el conjunto de datos de las primeras 4 y últimas 4 filas de forma predeterminada.
Luego buscamos tipos de variables y estadísticos de resumen de las variables.
Las funciones «vislumbrar» y «str» nos dan tipos de variables.
La función «profiling_num» en la biblioteca funModeling nos brinda estadísticas detalladas como la media, la desviación estándar, la asimetría, la curtosis, el rango intercuartílico, etc.
Interpretemos algunos resultados como ejemplo:
- En promedio, el asesinato en cada ciudad es 7.788.
- La desviación estándar del asalto es 83,34. Es alto. Una desviación estándar alta indica que los puntos de datos se distribuyen en una amplia gama de valores.
La asimetría es no ser simétrica de una variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.....
- Si asimetría> 0 -> distribución sesgada a la derecha
- Si la asimetría la distribución sesgada a la izquierda
- Si asimetría = 0 -> distribución simétrica.
Por lo tanto, mientras que la población urbana está sesgada hacia la izquierda, Violación está sesgada hacia la derecha.
La curtosis muestra si la distribución es nítida o aplanada.
- Si la curtosis> 3 -> la distribución es aguda
- Si la curtosis la distribución se aplana
- Si la curtosis = 3 -> la distribución es estándar normal
Así, mientras la población urbana se distribuye bruscamente, el asalto se distribuye aplastado.
2. Detectar valores faltantes
- Como se ve en la figura"Figura" es un término que se utiliza en diversos contextos, desde el arte hasta la anatomía. En el ámbito artístico, se refiere a la representación de formas humanas o animales en esculturas y pinturas. En la anatomía, designa la forma y estructura del cuerpo. Además, en matemáticas, "figura" se relaciona con las formas geométricas. Su versatilidad hace que sea un concepto fundamental en múltiples disciplinas...., en los datos no faltan valores.
3. Detección de valores atípicos
Una combinación de valores inusuales en al menos dos variables es un valor atípico multivariado. El efecto de los estudios estadísticos puede verse afectado por todo tipo de valores atípicos. Pueden distorsionar los análisis estadísticos y violar sus supuestos.
Demostremos valores atípicos tanto multivariados como individuales.
La función «plot_outlier» es una función muy útil en la biblioteca «dlookr». Muestra diagramas de cajaLos diagramas de caja, también conocidos como diagramas de caja y bigotes, son herramientas estadísticas que representan la distribución de un conjunto de datos. Estos diagramas muestran la mediana, los cuartiles y los valores atípicos, lo que permite visualizar la variabilidad y la simetría de los datos. Son útiles en la comparación entre diferentes grupos y en el análisis exploratorio, facilitando la identificación de tendencias y patrones en los datos.... e histogramasLos histogramas son representaciones gráficas que muestran la distribución de un conjunto de datos. Se construyen dividiendo el rango de valores en intervalos, o "bins", y contando cuántos datos caen en cada intervalo. Esta visualización permite identificar patrones, tendencias y la variabilidad de los datos de manera efectiva, facilitando el análisis estadístico y la toma de decisiones informadas en diversas disciplinas.... de todas las variables numéricas con valores atípicos y sin valores atípicos. El motivo de los shows Boxplots es que son herramientas muy útiles para visualizar los valores atípicos.
Como se ve en los gráficos, solo las variables de violación tienen valores atípicos. Además, cuando miramos el histograma sin valores atípicos, su forma es más simétrica.
Echemos un vistazo a los valores atípicos multivariados. (es muy útil en análisis multivariante, solo un ejemplo déjanos mostrarte)
Como se ve, hay 7 valores atípicos en los datos.
4. Comprobación de supuestos
Para continuar con los métodos estadísticos, es importante evaluar la normalidad. Esta suposición nos permite construir intervalos de confianza y realizar pruebas de hipótesis. Para comprobar la normalidad, no existe el mejor método que sea correcto en todas las condiciones. Es muy conveniente utilizar enfoques gráficos para decidir la normalidad multivariante, además de los resultados numéricos. Puede resultar útil combinarlos para ofrecer opciones más precisas.
- Ninguna de las variables parece normal cuando se mira el histograma y el gráfico QQ, y los histogramas no se ven normales después de la transformación de raíz cuadrada y logarítmica.
4. Visualizaciones
En esta parte, podemos observar diferentes gráficos de variables y la relación entre variables visualmente. Escribamos algunas preguntas de investigación.
4.1. ¿En qué ciudad hay más asesinatos?
Para esta pregunta, podemos usar mapa o gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad.....
El código R para la trama a continuación es:
- Como puede verse, la mayoría de los asesinatos se cometieron en Georgia.
4.2. ¿Cuáles son los valores de todas las variables en cada ciudad?
4.3. ¿Cuál es la relación entre asalto y asesinato?
Para esta pregunta, podemos dibujar una trama interactiva como la que se muestra arriba para ver los nombres de los estados.
Los códigos R para la trama interactiva son:
O podemos sumergirlo usando ggplot.
Como se ve, existe una relación positiva entre asesinato y agresión.
4.4. ¿Cuál es la relación entre población urbana y violación?
- Línea y dispersión muestra la relación entre dos variables y en los márgenes vemos el diagrama de caja de dos variables.
- Podemos decir que existe una relación positiva entre la población urbana y la violación.
4.5. ¿Cuáles son las relaciones de las variables entre sí?
Veamos la correlación entre variables. Para ver esto, podemos dibujar mapas de sombreros.
Las correlaciones positivas se muestran en azul y las correlaciones negativas en rojo. La intensidad del color es proporcional a los coeficientes de correlación. Cuando miramos la matriz de correlación, se ve que entre algunas variables hay una fuerte relación positiva como asalto y violación, asalto y asesinato.
Conclusión
Para concluir, en este artículo examinamos el análisis de datos explicativos y qué tipos de visualización podemos utilizar para el análisis de datos explicativos. Como se indicó anteriormente, es un paso muy crucial y debe realizarse antes de la ingeniería futura y la construcción de modelos para comprender mejor los datos. Puede acceder a los códigos desde el enlace a continuación.
https://github.com/iremtanriverdi/R_codes
Los medios que se muestran en este artículo sobre análisis de datos exploratorios no son propiedad de DataPeaker y se utilizan a discreción del autor.