Análisis de datos exploratorios | Guía para principiantes sobre análisis de datos explicativos

Contenidos

Introducción

908751t8d6pcrhaz3gzn31y-u0pa-9973427

Como todos sabemos, existen ciertos procesos para analizar datos. Primero, definimos el problema, luego extraemos los datos y los preparamos para el análisis. Antes de la ingeniería futura y la construcción de modelos, hay un paso importante.

336660wunzpjh43habilcy-3656588

El análisis exploratorio de datos se refiere al proceso crítico de realizar una investigación inicial sobre los datos para descubrir patrones, detectar anomalías y verificar suposiciones con la ayuda de estadísticas resumidas y representaciones gráficas. El análisis exploratorio de datos es un paso importante antes de comenzar a analizar o modelar los datos. Proporciona el contexto necesario para desarrollar un modelo apropiado e interpretar los resultados correctamente.

Veamos una implementación de R de muestra.

1. Descubrimiento de datos

En esta parte, descubrimos los tipos de variables y sus estadísticas de resumen en los datos. Primero, cargamos el conjunto de datos de USArrests en R. Luego imprimimos el conjunto de datos usando la función «headTail» que imprime el conjunto de datos de las primeras 4 y últimas 4 filas de forma predeterminada.

37971ekran20resmi202021-04-212013-22-17-2966598

Luego buscamos tipos de variables y estadísticos de resumen de las variables.

Las funciones «vislumbrar» y «str» ​​nos dan tipos de variables.

44948ekran20resmi202021-04-212013-26-20-2006313

La función «profiling_num» en la biblioteca funModeling nos brinda estadísticas detalladas como la media, la desviación estándar, la asimetría, la curtosis, el rango intercuartílico, etc.

41825ekran20resmi202021-04-212013-28-24-3489380

Interpretemos algunos resultados como ejemplo:

  • En promedio, el asesinato en cada ciudad es 7.788.
  • La desviación estándar del asalto es 83,34. Es alto. Una desviación estándar alta indica que los puntos de datos se distribuyen en una amplia gama de valores.

La asimetría es no ser simétrica de una variable.

20998skewness-formula-7011098
  • Si asimetría> 0 -> distribución sesgada a la derecha
  • Si la asimetría la distribución sesgada a la izquierda
  • Si asimetría = 0 -> distribución simétrica.

Por lo tanto, mientras que la población urbana está sesgada hacia la izquierda, Violación está sesgada hacia la derecha.

La curtosis muestra si la distribución es nítida o aplanada.

15816kurtosis-formula-3940283
  • Si la curtosis> 3 -> la distribución es aguda
  • Si la curtosis la distribución se aplana
  • Si la curtosis = 3 -> la distribución es estándar normal

Así, mientras la población urbana se distribuye bruscamente, el asalto se distribuye aplastado.

2. Detectar valores faltantes

73260ekran20resmi202021-04-212013-52-00-3669889
  • Como se ve en la figura, en los datos no faltan valores.

3. Detección de valores atípicos

Una combinación de valores inusuales en al menos dos variables es un valor atípico multivariado. El efecto de los estudios estadísticos puede verse afectado por todo tipo de valores atípicos. Pueden distorsionar los análisis estadísticos y violar sus supuestos.

Demostremos valores atípicos tanto multivariados como individuales.

La función «plot_outlier» es una función muy útil en la biblioteca «dlookr». Muestra diagramas de caja e histogramas de todas las variables numéricas con valores atípicos y sin valores atípicos. El motivo de los shows Boxplots es que son herramientas muy útiles para visualizar los valores atípicos.

21982ekran20resmi202021-04-212013-59-38-7625782
51775ekran20resmi202021-04-212013-59-47-6163278
91703ekran20resmi202021-04-212013-59-56-1152529
78480ekran20resmi202021-04-212014-00-03-7373866

Como se ve en los gráficos, solo las variables de violación tienen valores atípicos. Además, cuando miramos el histograma sin valores atípicos, su forma es más simétrica.

Echemos un vistazo a los valores atípicos multivariados. (es muy útil en análisis multivariante, solo un ejemplo déjanos mostrarte)

80834ekran20resmi202021-04-212014-06-35-3228285

Como se ve, hay 7 valores atípicos en los datos.

4. Comprobación de supuestos

Para continuar con los métodos estadísticos, es importante evaluar la normalidad. Esta suposición nos permite construir intervalos de confianza y realizar pruebas de hipótesis. Para comprobar la normalidad, no existe el mejor método que sea correcto en todas las condiciones. Es muy conveniente utilizar enfoques gráficos para decidir la normalidad multivariante, además de los resultados numéricos. Puede resultar útil combinarlos para ofrecer opciones más precisas.

15701ekran20resmi202021-04-212014-10-40-6488305
26028ekran20resmi202021-04-212014-10-46-1014085
40118ekran20resmi202021-04-212014-10-53-2188309
12054ekran20resmi202021-04-212014-10-59-7145667
  • Ninguna de las variables parece normal cuando se mira el histograma y el gráfico QQ, y los histogramas no se ven normales después de la transformación de raíz cuadrada y logarítmica.

4. Visualizaciones

En esta parte, podemos observar diferentes gráficos de variables y la relación entre variables visualmente. Escribamos algunas preguntas de investigación.

4.1. ¿En qué ciudad hay más asesinatos?

Para esta pregunta, podemos usar mapa o gráfico de barras.

54783ekran20resmi202021-04-212014-30-16-9216523

El código R para la trama a continuación es:

39523ekran20resmi202021-04-212015-06-49-2639564

! function () {«usar estricto»; window.addEventListener («mensaje», (función (a) {if (void 0! == a.data[“datawrapper-height”]) para (var e en a.data[“datawrapper-height”]) {var t = document.getElementById («datawrapper-chart -» + e) ​​|| document.querySelector («iframe[src*=’”+e+”‘]”); T && (t.style.height = a.data[“datawrapper-height”][e]+ ”Px”)}}))} ();

  • Como puede verse, la mayoría de los asesinatos se cometieron en Georgia.

4.2. ¿Cuáles son los valores de todas las variables en cada ciudad?

69707ekran20resmi202021-04-212021-08-25-2055521

4.3. ¿Cuál es la relación entre asalto y asesinato?

Para esta pregunta, podemos dibujar una trama interactiva como la que se muestra arriba para ver los nombres de los estados.

Los códigos R para la trama interactiva son:

85910ekran20resmi202021-04-212015-45-01-1835458

! function () {«usar estricto»; window.addEventListener («mensaje», (función (a) {if (void 0! == a.data[“datawrapper-height”]) para (var e en a.data[“datawrapper-height”]) {var t = document.getElementById («datawrapper-chart -» + e) ​​|| document.querySelector («iframe[src*=’”+e+”‘]”); T && (t.style.height = a.data[“datawrapper-height”][e]+ ”Px”)}}))} ();

O podemos sumergirlo usando ggplot.

93494ekran20resmi202021-04-212015-23-48-9681282

Como se ve, existe una relación positiva entre asesinato y agresión.

4.4. ¿Cuál es la relación entre población urbana y violación?

79208ekran20resmi202021-04-212015-29-11-9001486
70991ekran20resmi202021-04-212015-29-20-3103869
  • Línea y dispersión muestra la relación entre dos variables y en los márgenes vemos el diagrama de caja de dos variables.
  • Podemos decir que existe una relación positiva entre la población urbana y la violación.

4.5. ¿Cuáles son las relaciones de las variables entre sí?

Veamos la correlación entre variables. Para ver esto, podemos dibujar mapas de sombreros.

71125ekran20resmi202021-04-212015-36-03-7633276

Las correlaciones positivas se muestran en azul y las correlaciones negativas en rojo. La intensidad del color es proporcional a los coeficientes de correlación. Cuando miramos la matriz de correlación, se ve que entre algunas variables hay una fuerte relación positiva como asalto y violación, asalto y asesinato.

Conclusión

Para concluir, en este artículo examinamos el análisis de datos explicativos y qué tipos de visualización podemos utilizar para el análisis de datos explicativos. Como se indicó anteriormente, es un paso muy crucial y debe realizarse antes de la ingeniería futura y la construcción de modelos para comprender mejor los datos. Puede acceder a los códigos desde el enlace a continuación.

https://github.com/iremtanriverdi/R_codes

Los medios que se muestran en este artículo sobre análisis de datos exploratorios no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.