Los conceptos clave para investigar su conjunto de datos

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

“No te metas en el modelaje. Primero, ¡comprenda y explore sus datos! «

Sobre

Este es un consejo común para muchos científicos de datos. Si su conjunto de datos está desordenado, la construcción de modelos no lo ayudará a resolver su problema. Lo que sucederá es «basura adentro, basura afuera». Para construir un poderoso algoritmo de aprendizaje automático. Necesitamos explorar y comprender nuestro conjunto de datos antes de definir una tarea predictiva y resolverla.

Introducción

Antes de continuar, los científicos de datos pasan la mayor parte de su tiempo explorando, limpiando y preparando sus datos para el modelado. Esto les ayuda a construir modelos precisos y comprobar los supuestos necesarios para ajustar modelos.

Cree visualizaciones de datos significativas, prediga tendencias futuras a partir de los datos.

Si se le da bien comprender la preparación de datos, se completa casi el 80% del trabajo.

Tabla de contenido

  • ¿Haz las preguntas correctas?
  • Analizar diferentes subconjuntos de datos
  • Explore las tendencias
  • FEncuentra tus puntos ciegos
  • Investigar los porqués

Haz las preguntas correctas

Ya sea que se trate de resultados de encuestas, datos de ventas o una campaña de correo electrónico, ha recopilado datos para un propósito específico. Por extensión, aplique este propósito a las preguntas que hace sobre los datos en sí. Comenzar con algunas preguntas específicas puede mantener su investigación enfocada y permitirle ver el bosque a través de los árboles. Una pregunta como «¿Cómo son mis ingresos durante los últimos 3 años?» Es vaga y permite la exploración, pero también la confusión.

En cambio, algo como «qué canal genera más ingresos durante los últimos 3 años» tiene una respuesta más clara. Las preguntas posteriores pueden ser: «¿qué departamento genera más ingresos por año» o «las ventas de equipos de escalada aumentan o disminuyen este año?» Es importante tener una pregunta específica en mente cuando comience el análisis de datos para proporcionar cierta estructura y evitar tropezar con falsos positivos.

66598one-7540058

Analizar diferentes subconjuntos de datos:

Es más fácil detectar relaciones si analiza los datos de diferentes subconjuntos. Por ejemplo, segmente sus datos de ingresos por canal como el gráfico anterior, o por departamento. Experimente con los subconjuntos y las variables que tengan más sentido para las preguntas que desarrolló en el paso anterior.

Este diseño se enfoca en permitirle permanecer dentro de su línea de pensamiento y hacer una transición suave de una pregunta a otra, sin tropezar con el formato o las ecuaciones. También puede resultar útil utilizar lo que se denominaría una tabla dinámica en Excel. En nuestro ejemplo de minorista de equipo para actividades al aire libre, puede cambiar de una vista trimestral a ingresos por un trimestre del año simplemente seleccionando en un menú desplegable. El gráfico a continuación es un agregado de los ingresos de cada trimestre entre 2010 y 2013.

74333two-7673471

Explore las tendencias

Experimente con sus variables de tiempo. Mire el trimestre, el mes o la semana, lo que tenga sentido según lo que esté buscando. A veces, lo que falta también es tan importante como lo que hay. Si hay agujeros en su análisis de datos, tome nota. Puede ser útil tomar notas a través de su análisis, recordatorios de lo que le gustaría investigar o discutir con sus colegas más adelante.

Eche un vistazo a este análisis trimestral de ingresos del departamento. No es muy útil porque es difícil detectar tendencias.

69209three-9997805

Este gráfico lineal anual hace que sea mucho más fácil ver que Climbing es el departamento de más rápido crecimiento y que las ventas de Running han disminuido durante los últimos tres años.

63951four-8815038

Encuentra tus puntos ciegos

  • Realmente se ha recogido
    para la tarea que se le pide que haga. Y se le pide que haga el
    los datos validan un resultado que ya se ha decidido.
  • La mayoría de las organizaciones no piensan científicamente. No crean una hipótesis y luego deciden qué datos necesitan recopilar para validarla. Eligen un resultado y luego ajustan los datos.
  • A menudo, los datos provienen de algo completamente diferente, a menudo como un subproducto de un proceso comercial. Entonces alguien tiene la brillante idea «Podríamos usar esto para trabajar»
  • Al analizar el siguiente gráfico, el gráfico ilustra la información sobre los puntos ciegos de un conjunto de datos. Los datos ocultos serán uno de los inconvenientes para obtener una solución. En general, encontrar valores atípicos será una solución.

  • Corrección de valores atípicos basada en el parámetro R. El gráfico de la izquierda muestra los datos originales con valores atípicos detectados. El gráfico del medio usa un valor de ruido de cero para colocar o corregir la ubicación de los valores atípicos en el modelo lineal. El gráfico de la derecha coloca el valor atípico cerca del modelo lineal a una distancia basada en un valor positivo para R (R = 0.5).
  • 87583six-4177881

Investiga los porqués:

69565five-5701755

El análisis de datos es un proceso continuo y la mejor manera de abordarlo es tratar de equivocarse cada vez menos. Probablemente nunca tendrá todos los datos que desea o necesita para responder todas las preguntas sobre su negocio, pero al menos puede avanzar hacia más respuestas y mejores decisiones. Este ciclo de retroalimentación continua (preguntar, analizar, investigar, repetir) se puede mejorar, pero nunca será perfecto.

Notas finales

Comprender e interpretar los datos es un paso muy importante en el aprendizaje automático. En esta publicación de blog, intentamos brindar una descripción general de las técnicas que pueden ayudarlo a conocer mejor sus datos

Dependiendo del tamaño, dimensión y tipo de sus datos, puede elegir el algoritmo. Por ejemplo, cuando tiene grandes datos sin procesar, puede usar ejemplos representativos en lugar de muestras aleatorias. Si tiene un amplio conjunto de datos, también puede encontrar las dimensiones importantes para comprender las muestras representativas.

Diferentes técnicas pueden brindarle diferentes conocimientos sobre sus datos. Es su trabajo utilizar las herramientas para resolver el misterio como un detective.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.