¿Qué es la visualización de datos?
«Una imagen vale más que mil palabras.» De manera similar, una infografía / visual puede ayudarnos a analizar datos y patrones ocultos de una manera mucho más fácil. Esta es una guía completa para cubrir los conceptos básicos de la visualización. He intentado incorporar un ejemplo utilizando los datos de supervivencia al cáncer de Haberman para mostrar cómo las imágenes pueden ayudarnos a encontrar patrones en los datos que los números no muestran. ¡Empecemos!
¿Por qué visualizar datos?
La visualización de datos es una forma de crear una historia a través de sus datos. Cuando los datos son complejos y la comprensión de los microdetalles es esencial, la mejor manera es analizar los datos a través de imágenes.
Las imágenes se pueden utilizar para dos propósitos:
1. Análisis exploratorio de datos: lo utilizan analistas de datos, estadísticos y científicos de datos para comprender mejor los datos. Como se le llama con razón, se utiliza para explorar las tendencias ocultas, los patrones en los datos.
2. Análisis de datos explicativo: una vez que los analistas comprenden los datos y encuentran sus resultados, la mejor manera de transmitir sus ideas y hallazgos es a través de imágenes. Esto se utiliza para crear una historia que atraerá al espectador y ofrecerá conocimientos más profundos.
Análisis exploratorio de los datos de supervivencia de Haberman
El conjunto de datos contiene casos de un estudio que se llevó a cabo entre 1958 y 1970 en el Hospital Billings de la Universidad de Chicago sobre la supervivencia de pacientes que se habían sometido a una cirugía por cáncer de mama.
Los atributos incluyen:
- Edad del paciente en el momento de la operación (numérica)
- Año de operación del paciente (año – 1900, numérico)
- Número de ganglios axilares positivos detectados (numérico)
- Estado de supervivencia (atributo de clase)
1 = el paciente sobrevivió 5 años o más
2 = el paciente murió dentro de los 5 años
Primero comencemos usando estadísticas para comprender los datos:
Vemos que hay 306 filas y 4 columnas. Además, al ver los atributos, entendemos cómo se distribuyen los datos. Para saber más cuántos ejemplos de cada clase tenemos, podemos usar un gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad.....
Vemos que los datos están desequilibrados con más sobrevivientes que aquellos que no pudieron sobrevivir. Para escanear más los datos, veamos diferentes gráficos.
Función de densidad de probabilidad
Una gran parte, es decir, de 30 a 80 años, se superpone entre las dos clases.
Las personas en el grupo de edad de 20 a 40 tienen más probabilidades de sobrevivir, 40 a 60 tienen más probabilidades de no sobrevivir, los grupos de 60 a 80 tienen las mismas posibilidades de supervivencia y muerte, y> 80 tienen mayores posibilidades de no sobrevivir.
La edad por sí sola no puede distinguir si una persona sobrevivirá o no.
Diagrama de caja
Los diagramas de cajaLos diagramas de caja, también conocidos como diagramas de caja y bigotes, son herramientas estadísticas que representan la distribución de un conjunto de datos. Estos diagramas muestran la mediana, los cuartiles y los valores atípicos, lo que permite visualizar la variabilidad y la simetría de los datos. Son útiles en la comparación entre diferentes grupos y en el análisis exploratorio, facilitando la identificación de tendencias y patrones en los datos.... nos informan sobre la distribución de datos y escanean valores atípicos. Observe que los supervivientes tienen menos nodos que los que no pudieron sobrevivir. ¡Interesante! ¿No es así? También observe que aunque el número de nodos es una característica más útil, existe cierta superposición con ambas clases.
Gráfico de dispersión
Vemos en los puntos dispersos que, independientemente del año, el número de pacientes que tienen 0 ganglios han sido supervivientes. ¿Significa esto que 0 nodos aseguran la supervivencia? ¡Mira la trama del violín!
Trama de violín
En el gráfico anterior, vemos que hay no supervivientes con 0 nodos. Los diagramas de violín nos permiten ver la distribución y los diagramas de caja en una sola imagen. ¡Útil! ¿No es así? Hay mucho que podemos aprender de las imágenes. Visualiza para comprender. Visualice para explicar su comprensión. He recopilado algunos consejos y herramientas para comenzar.
Herramientas de visualización de datos
Cuadro: Fácil de usar, eficaz y seguro. Es muy popular y se utiliza para preprocesar y visualizar datos de forma eficaz. También es posible compartir datos.
Microsoft Power BI: Plataforma de visualización de datos enfocada en la creación de soluciones basadas en datos para problemas comerciales. Se utiliza para preprocesar, analizar y compartir conocimientos significativos con facilidad. Otras herramientas incluyen FusionCharts, Dash, Plotly, QlikView.
MS Excel: Esta es la herramienta más común utilizada por los analistas para manejar datos, ordenar, visualizar y realizar el preprocesamiento de datos rápidamente.
Mejores prácticas y consejos
Use un esquema de colores consistente para sus imágenes: Si bien el color agrega significado y belleza a un gráfico, a menudo es mejor usar colores para resaltar detalles importantes y no solo por atractivo. Demasiados colores destruirán el propósito de colorear, mientras que usar un solo color o demasiados tonos de un color pueden confundir a los espectadores. Además, tenga en cuenta a las personas con discapacidad visual al diseñar los elementos visuales. Utilice los colores de forma intuitiva. Por ejemplo: para el análisis de sentimientos, podemos usar el color verde para las emociones positivas, el rojo para las emociones negativas y el verde para las neutrales.
Utilice el tamaño, la forma y el formato para transmitir la semántica: El uso de tamaños, formas como círculos y cuadrados puede agregar un significado semántico y, por lo tanto, ayudar a los espectadores a absorber los datos con facilidad. Además, tenga en cuenta que, a veces, organizar los gráficos de barras en orden ascendente tiene más sentido (en el caso de datos ordinales) que organizarlos alfabéticamente o aleatoriamente.
Use leyendas, palabras para anotar correctamente los datos: Utilice etiquetas donde sea necesario, pero no abarrote el gráfico con texto. Utilice los datos de texto con prudencia. Coloque los datos visuales de una manera que sea fácil de comprender.
Utilice parcelas interactivas: Los gráficos de carrera y las tramas interactivas agregan valor y ayudan a los espectadores a interactuar con los datos en mayor profundidad.
Eliminar basura del gráfico: Elimine la basura innecesaria del gráfico que pueda distraer a los espectadores. No combine varias vistas en un solo objeto visual hasta el punto de que sea difícil de comprender. Usa las escalas para contar la imagen real.
Etiquetado de los datos: Etiquete los datos con precisión. No etiquetes demasiado. Asegúrese de que las etiquetas estén visibles y estén orientadas correctamente. No agregue dimensiones a las imágenes que puedan dar lugar a sesgos.
Elabora una historia completa: Concéntrese en la imagen más grande que está tratando de capturar. No proporcione imágenes inexactas o engañosas. Utilice las herramientas visuales sabiamente para hablar más de lo que lo haría el texto.
Errores comunes que se deben evitar al visualizar datos
Usar un objeto visual cuando puede que no sea necesario: Si los datos se pueden comunicar de manera efectiva con estadísticas, no es necesario crear imágenes. Las imágenes facilitan el análisis de lo que los números no pueden transmitir. Por lo tanto, elija sabiamente cuándo usar una herramienta visual.
¿Estás realmente seguro de lo que intentas transmitir? : La correlación no implica causa. Necesitamos asegurarnos de que nuestros resultados estén respaldados por investigaciones y experimentos adecuados antes de saltar a las causas.
Uso de imágenes en 3-D: Asegúrese de que la vista 3D no oculte una parte de los datos ni los distorsione. Utilice gráficos en 3-D con sumo cuidado. No agregue orientaciones que puedan engañar al espectador y destruir el propósito de la visualización.
¿Dónde buscar más recursos y cursos?
Hay muchos cursos, blogs y libros para ayudarnos a comprender la visualización en profundidad.
Para sitios web de blogs maravillosos: https://www.tableau.com/learn/articles/best-data-visualization-blogs, Visualización de datos, y Reddit siendo mi favorito.
Para cursos gratuitos: Cuadro ofrece cursos gratuitos de visualización de datos que son obligatorios. Kaggle también tiene cursos gratuitos de visualización de datos básicos con ejercicios prácticos. Hay varios cursos disponibles en DataPeaker, Coursera, Udemy, Udacity que ayudan en el aprendizaje.
Para libros: consulte esta lista seleccionada de libros https://www.tableau.com/learn/articles/books-about-data-visualization siendo mis favoritos La presentación visual de información cuantitativa por Edward Tufte y Narración de historias con datos por Cole.
Ultimas palabras
Como productores de datos, debemos asegurarnos de mostrar la información correcta en todo momento. Debe evitarse a toda costa manipular a los consumidores para hacerles ver lo que queremos.
Como consumidores de datos, necesitamos ver cada elemento visual de manera crítica para asegurarnos de que vemos más allá de lo que el elemento visual nos persuade de ver.
Espero que hayas disfrutado del contenido. Para cualquier consulta, puede comunicarse conmigo en [email protected] o despliega un comentario a continuación.
Referencias
https://www.tableau.com/learn/articles/best-data-visualization-blogs
https://www.toptal.com/designers/ux/data-visualization-mistakes
https://blog.hubspot.com/marketing/great-data-visualization-examples
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.
Relacionado
Posts Relacionados:
- Visualización de datos en Python | Visualización de datos para principiantes
- Visualización de datos en R | Guía para la visualización de datos en R
- Seaborn para visualización de datos | Una guía para principiantes de Seaborn
- Herramientas de visualización de datos | Principales herramientas de visualización de datos para dominar en 2021