Cos'è la visualizzazione dei dati?? Tecniche di visualizzazione dei dati

Contenuti

Questo post è stato pubblicato come parte del Blogathon sulla scienza dei dati

introduzione

En estadística aplicada y aprendizaje automático, Visualizzazione dati es una de las habilidades más importantes.

La visualización de datos proporciona un conjunto importante de herramientas para identificar una comprensión cualitativa. Esto puede ser útil cuando intentamos explorar el conjunto de datos y extraer información para conocer un conjunto de datos y puede ayudar con identificación de patrones, datos corruptos, Valori atipici, e altro ancora.

Si tenemos un poco de conocimiento del dominio, las visualizaciones de datos se pueden utilizar para expresar e identificar relaciones clave en gráficos y gráficos que sean más útiles para usted y las partes interesadas que las medidas de asociación o relevancia.

In questo post, discutiremos algunos de los gráficos básicos oh parcelas que puede usar para comprender y visualizar mejor sus datos.

Sommario

1. Cos'è la visualizzazione dei dati??

2. Beneficios de una buena visualización de datos

3. Diferentes tipos de análisis para la visualización de datos

4. Técnicas de análisis univariante para la visualización de datos

  • Parcela de distribución
  • Diagrama de caja y bigotes
  • Cornice per violino

5. Técnicas de análisis bivariado para la visualización de datos

  • Grafico a linee
  • Grafico a barre
  • Grafico a dispersione

Cos'è la visualizzazione dei dati??

La visualización de datos se establece como representación grafica que contiene el informazione e il dati.

Usando ítems visuales como grafica, graficas, e mappe, las técnicas de visualización de datos proporcionan una forma alcanzable de ver y comprender tendencias, valores atípicos y patrones en los datos.

Attualmente, tenemos muchos datos en nuestras manos, In altre parole, en el mundo de Grandi dati, las herramientas y las tecnologías de visualización de datos son cruciales para analizar cantidades masivas de información y tomar decisiones sustentadas en datos.

Se utiliza en muchas áreas como:

  • Modelar eventos complejos.
  • Visualizar fenómenos que no se pueden observar de forma directa, Che cosa patrones meteorológicos, condiciones médicas, oh relaciones matemáticas.

Beneficios de una buena visualización de datos

Dado que nuestros ojos pueden capturar los colores y patrones, perché, podemos identificar rápidamente la parte roja del azul, el cuadrado del círculo, nuestra cultura es visual, che include tutto, desde el arte y los anuncios hasta la televisión y las películas.

Quindi, la visualización de datos es otra técnica de arte visual que capta nuestro interés y mantiene nuestro enfoque principal en el mensaje capturado con la ayuda de los ojos.

Siempre que visualizamos un gráfico, identificamos rápidamente las tendencias y valores atípicos presentes en el conjunto de datos.

Los usos básicos de la técnica de visualización de datos son los siguientes:

  • Es una técnica poderosa para explorar los datos con presentable e interpretable risultati.
  • In procedimiento de minería de datos, actúa como un paso principal en la parte de preprocesamiento.
  • Es compatible con procedimiento de limpieza de datos encontrando datos incorrectos y valores dañados o faltantes.
  • Además ayuda a construir y elegir variables, lo que significa que tenemos que determinar qué variable incluir y descartar en el análisis.
  • En el procedimiento de Diminuzione dei dati, además juega un papel crucial al combinar las categorías.

Visualizzazione dati

Fonte immagine: Google Immagini

Diferentes tipos de análisis para la visualización de datos

Principalmente, existen tres tipos diferentes de análisis para la visualización de datos:

Analisi invariate: En el análisis univariado, usaremos una sola característica para analizar casi todas sus propiedades.

Analisi bivariata: Cuando comparamos los datos entre exactamente 2 caratteristiche, se conoce como análisis bivariado.

Analisi multivariabile: En el análisis multivariado, voluntad estar comparando más de 2 variabili.

NOTA:

In questo post, nuestro principal objetivo es comprender los siguientes conceptos:

  • ¿Cómo hallar algunas inferencias de las técnicas de visualización de datos?
  • ¿En qué condición, qué técnica es más útil que otras?

No vamos a profundizar en la parte de codificación / implementación de diferentes técnicas en un conjunto de datos en particular, pero intentamos hallar la solución a las preguntas anteriores y comprender solo el código del fragmento con la ayuda de diagramas de muestra para cada una de las técnicas de visualización de datos. .

Ora, comencemos con las diferentes técnicas de visualización de datos:

Técnicas de análisis univariante para la visualización de datos

1. Parcela de distribución

  • Es uno de los mejores gráficos univariados para conocer la distribución de datos.
  • Cuando queremos analizar el impacto en la variable objetivo (Uscita) con respecto a una variable independiente (iscrizione), usamos mucho las gráficas de distribución.
  • Esta gráfica nos da una combinación de funciones de densidad de probabilidad (PDF) e histograma en una sola gráfica.

Implementazione:

  • La gráfica de distribución está presente en el Seaborn pacchetto.

El fragmento de código es el siguiente:

sns.FacetGrid(hb,tonalità="SurvStat",size=5).carta geografica(sns.distplot,'età').aggiungi_leggenda()

técnicas de visualización de datos |  trama di distribuzione

Algunas conclusiones inferidas del diagrama de distribución anterior:

De la gráfica de distribución anterior podemos concluir las siguientes observaciones:

  • Hemos observado que creamos una gráfica de distribución en la característica 'Età’(variable de entrada) y usamos diferentes colores para la stato di sopravvivenza(variable de salida) puesto que es la clase a predecir.
  • Existe una gran área de superposición entre los PDF para diferentes combinaciones.
  • In questo grafico, las estructuras afiladas en forma de bloque se denominan histogramas y la curva suavizada se conoce como función de densidad de probabilidad (PDF).

NOTA:

La funzione di densità di probabilità (PDF) de una curva puede ayudarnos a capturar la distribución subyacente de esa característica, que es una de las principales conclusiones de la visualización de datos o el análisis exploratorio de datos (EDA).

2. Diagrama de caja y bigotes

  • Este gráfico se puede usar para obtener más detalles estadísticos sobre los datos.
  • Las rectas en el máximo y mínimo además se denominan bigotes.
  • Los puntos que se encuentran fuera de los bigotes se considerarán un valor atípico.
  • El diagrama de caja además nos da una descripción de la quartili 25, 50, 75.
  • Con la ayuda de un diagrama de caja, además podemos determinar el Intervallo interquartile (IQR) donde estarán presentes los máximos detalles de los datos. Perché, además puede darnos una idea clara sobre los valores atípicos en el conjunto de datos.

trama a scatola |  técnicas de visualización de datos

Fig. Diagrama general para un diagrama de caja

Implementazione:

  • Boxplot está habilitada en Seaborn Biblioteca.
  • Aquí x se considera como la variable dependiente e y se considera como la variable independiente. Estos diagramas de caja vienen debajo análisis univariado, lo que significa que estamos explorando datos solo con una variable.
  • Aquí estamos tratando de verificar el impacto de una característica llamadaAxil_nodes en la clase nombrada “stato di sopravvivenza” y no entre dos características independientes.

El fragmento de código es el siguiente:

sns.boxplot(x='SurvStat',y='axil_nodes',data=hb)

diagrama de caja de seaborn |  técnicas de visualización de datos

Algunas conclusiones inferidas del diagrama de caja anterior:

Del diagrama de caja y bigotes anterior podemos concluir las siguientes observaciones:

  • Cuántos datos están presentes en el primer cuartil y cuántos puntos son valores atípicos, eccetera.
  • Per la classe 1, podemos ver que hay muy pocos o ningún dato presente entre la mediana y el primer cuartil.
  • Hay más valores atípicos para la clase 1 en la característica denominada axil_nodes.

NOTA:

Podemos obtener detalles sobre los valores atípicos que nos ayudarán a preparar bien los datos antes de enviarlos a un modelo, puesto que los valores atípicos influyen en muchos modelos de aprendizaje automático.

3. Cornice per violino

  • Las parcelas de violín se pueden considerar como una combinación de parcelas de caja en el medio y parcelas de distribución(Estimación de la densidad del grano) en ambos lados de los datos.
  • Esto puede darnos la descripción de la distribución del conjunto de datos como si la distribución es multimodal, Obliquitàeccetera.
  • Además nos brinda información útil como Intervalo de confianza del 95%.

parcela violín |  técnicas de visualización de datos

Fig. Diagrama general para una trama de violín

Implementazione:

  • La trama del violín está presente en el Seaborn pacchetto.

El fragmento de código es el siguiente:

sns.violinplot(x='SurvStat',y='op_yr',data=hb,size=6)

parcela de violín nacida en el mar

Algunas conclusiones inferidas de la trama de violín anterior:

De la trama de violín anterior podemos concluir las siguientes observaciones:

  • La mediana de ambas clases se acerca a 63.
  • El número máximo de personas con clase 2 avere un op_yr valor de 65 mentre, para las personas de la clase 1, el valor máximo es de alrededor de 60.
  • Allo stesso tempo, el tercer cuartil a la mediana tiene un número menor de puntos de datos que la mediana al primer cuartil.

Técnicas de análisis bivariado para la visualización de datos

1. Grafico a linee

  • Esta es la gráfica que se puede ver en los rincones de cualquier tipo de análisis entre 2 variabili.
  • Los gráficos de líneas no son más que los valores de una serie de puntos de datos que se conectarán con líneas rectas.
  • La trama puede parecer muy simple pero tiene más aplicaciones no solo en el aprendizaje automático sino en muchas otras áreas.

Implementazione:

  • La gráfica de línea está presente en el Matplotlib pacchetto.

El fragmento de código es el siguiente:

plt.trama(X,e)

grafico a linee |  técnicas de visualización de datos

Algunas conclusiones inferidas del diagrama de líneas anterior:

Del gráfico de líneas anterior podemos concluir las siguientes observaciones:

  • Estos se usan de forma directa desde la realización de la comparación de distribución usando Parcelas QQ para sintonizar CV usando el metodo del gomito.
  • Se utiliza para analizar el rendimiento de un modelo usando el curva ROC- AUC.

2. Grafico a barre

  • Este es uno de los gráficos más utilizados, que hubiéramos visto varias veces no solo en el análisis de datos, sino que además usamos este gráfico siempre que haya un análisis de tendencias en muchos campos.
  • Aún cuando parezca simple, es poderoso para analizar datos como cifras de ventas cada semana, ingresos de un producto, Número de visitantes de un sitio cada día de la semanaeccetera.

Implementazione:

  • El gráfico de barras está presente en el Matplotlib pacchetto.

El fragmento de código es el siguiente:

plt.bar(X,e)

grafico a barre

Algunas conclusiones inferidas del diagrama de barras anterior:

Del gráfico de barras anterior podemos concluir las siguientes observaciones:

  • Podemos visualizar los datos en una trama genial y podemos transmitir los detalles de forma directa a los demás.
  • Esta gráfica puede ser simple y clara, pero no se utiliza con mucha frecuencia en aplicaciones de ciencia de datos.

3. Diagramma di dispersione

  • Es uno de los gráficos más utilizados para visualizar datos simples en el aprendizaje automático y la ciencia de datos.
  • Esta gráfica nos describe como una representación, donde cada punto en el conjunto de datos completo está presente con respecto a 2 oh 3 caratteristiche (colonne).
  • Los diagramas de dispersión están disponibles tanto en 2-D como en 3-D. El gráfico de dispersión 2-D es el más común, donde principalmente trataremos de hallar los patrones, grupos y separabilidad de los datos.

Implementazione:

  • El diagrama de dispersión está presente en el Matplotlib pacchetto.

El fragmento de código es el siguiente:

plt.scatter(X,e)

grafico a dispersione

Algunas conclusiones inferidas del diagrama de dispersión anterior:

Del diagrama de dispersión anterior podemos concluir las siguientes observaciones:

  • Los colores se asignan a diferentes puntos de datos en función de cómo estaban presentes en el conjunto de datos. In altre parole, representación de la columna de destino.
  • Podemos colorear los puntos de datos según su etiqueta de clase dada en el conjunto de datos.

Questo completa la discussione di oggi!!

Note finali

Grazie per aver letto!

Espero que haya disfrutado del post y haya aumentado sus conocimientos sobre las técnicas de visualización de datos.

Per favore sentiti libero di contattarmi su E-mail

Tutto ciò che non è stato menzionato o vuoi condividere i tuoi pensieri? Sentiti libero di commentare qui sotto e ti ricontatterò.

Para los posts restantes, Chiedi a Collegamento.

Circa l'autore

Aashi Goyal

A quest'ora, Sto perseguendo il mio Bachelor of Technology (B.Tech) in Ingegneria Elettronica e delle Comunicazioni da Universidad Guru Jambheshwar (GJU), Hisar. Sono molto entusiasta delle statistiche, machine learning e deep learning.

I vostri suggerimenti e dubbi sono i benvenuti qui nella sezione commenti. Grazie per aver letto il mio post!!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.