Generación de hipótesis para proyectos de ciencia de datos

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Introducción

El primer paso hacia la resolución de problemas en proyectos de ciencia de datos no se trata de construir modelos de aprendizaje automático. ¡Sí, lo leiste bien!

Esa distinción pertenece a la generación de hipótesis, el paso en el que se combinan nuestras habilidades de resolución de problemas con nuestra intuición empresarial. Es un paso verdaderamente crucial para garantizar un proyecto de ciencia de datos exitoso.

Seamos honestos: todos pensamos en una hipótesis casi todos los días. Consideremos el ejemplo de un deporte famoso en la India: el cricket. Es esa época del año en la que la fiebre de la IPL es alta y todos estamos absortos en predecir el ganador.

Si ha estado adivinando qué equipo ganaría en función de varios factores, como el tamaño del estadio y los bateadores presentes en el equipo con seis capacidades de bateo o bateadores con promedios altos de T20, felicitaciones a todos. Todos ustedes han estado haciendo una conjetura fundamentada y generando hipótesis basadas en su conocimiento de dominio del deporte.

3-1-9818889

Del mismo modo, el primer paso para resolver cualquier problema empresarial mediante el aprendizaje automático es la generación de hipótesis. Comprender el enunciado del problema con un buen conocimiento del dominio es importante y formular una hipótesis lo expondrá aún más a nuevas ideas de resolución de problemas.

Entonces, en este artículo, profundicemos en qué es la generación de hipótesis y descubramos por qué es importante para todos los científicos de datos.

Tabla de contenido

  • ¿Qué es la generación de hipótesis?
  • Generación de hipótesis vs prueba de hipótesis
  • ¿Cómo ayuda la generación de hipótesis?
  • ¿Cuándo debería realizar la generación de hipótesis?
  • Estudio de caso: generación de hipótesis con la predicción de la duración del viaje en taxi de la ciudad de Nueva York

¿Qué es la generación de hipótesis?

Hipótesis La generación es una «suposición» informada de varios factores que están afectando el problema empresarial que debe resolverse mediante el aprendizaje automático. Al formular una hipótesis, el científico de datos no debe conocer el resultado de la hipótesis que se ha generado basándose en ninguna evidencia.

“Una hipótesis puede definirse simplemente como una suposición. Una hipótesis científica es una suposición inteligente «. – Isaac Asimov

La generación de hipótesis es un paso crucial en cualquier proyecto de ciencia de datos. Si omite esto o lo repasa, la probabilidad de que el proyecto fracase aumenta exponencialmente.

Generación de hipótesis vs. Prueba de hipótesis

Este es un error muy común que cometen los principiantes en la ciencia de datos.

La generación de hipótesis es un proceso que comienza con una suposición fundamentada, mientras que la prueba de hipótesis es un proceso para concluir que la suposición fundamentada es verdadera / falsa o que la relación entre las variables es estadísticamente significativa o no.

Esta última parte podría usarse para futuras investigaciones utilizando pruebas estadísticas. Se acepta o rechaza una hipótesis según el nivel de significancia y la puntuación de la prueba utilizada para probar la hipótesis.

Para comprender más sobre las pruebas de hipótesis en detalle, puede leerlo aquí o también puede aprenderlo a través de este curso.

¿Cómo ayuda la generación de hipótesis?

Aquí hay 5 razones clave por las que la generación de hipótesis es tan importante en la ciencia de datos:

  • La generación de hipótesis ayuda a comprender el problema empresarial a medida que profundizamos en la inferencia de los diversos factores que afectan nuestra variable objetivo.
  • Obtendrá una idea mucho mejor de cuáles son los principales factores que son responsables de resolver el problema.
  • Datos que deben recopilarse de varias fuentes que son clave para convertir su problema comercial en un problema basado en la ciencia de datos
  • Mejora su conocimiento del dominio si es nuevo en el dominio a medida que dedica tiempo a comprender el problema
  • Ayuda a abordar el problema de manera estructurada

¿Cuándo debería realizar la generación de hipótesis?

La pregunta del millón de dólares: ¿en qué momento del mundo debería realizar la generación de hipótesis?

  • La generación de hipótesis debe realizarse antes de mirar el conjunto de datos o la recopilación de datos.
  • Notará que si ha realizado la generación de su hipótesis de manera adecuada, habría incluido todas las variables presentes en el conjunto de datos en la generación de su hipótesis.
  • También puede haber incluido variables que no están presentes en el conjunto de datos

Estudio de caso: generación de hipótesis sobre la «predicción de la duración del viaje en taxi en la ciudad de Nueva York»

Veamos ahora el «PREDICCIÓN DE LA DURACIÓN DEL VIAJE EN TAXI DE LA CIUDAD DE NUEVA YORK« planteamiento del problema y generar algunas hipótesis que afectarían la duración de nuestro viaje en taxi para comprender la generación de hipótesis.

95993nyc20image-5740057

Aquí está la declaración del problema:

Predecir la duración de un viaje para que la empresa pueda asignar los taxis que quedan libres para el próximo viaje. Esto ayudará a reducir el tiempo de espera de los clientes y también ayudará a ganarse la confianza del cliente.

¡Vamos a empezar!

Generación de hipótesis basada en varios factores

1. Funciones basadas en la distancia / velocidad

Intentemos llegar a una fórmula que tenga relación con la duración del viaje y nos ayude a generar varias hipótesis para el problema:

TIEMPO = DISTANCIA / VELOCIDAD

La distancia y la velocidad juegan un papel importante en la predicción de la duración del viaje.

Podemos notar que la duración del viaje es directamente proporcional a la distancia recorrida e inversamente proporcional a la velocidad del taxi. Con esto podemos llegar a una hipótesis basada en la distancia y la velocidad.

  • Distancia: Cuanto mayor sea la distancia recorrida por el taxi, mayor será la duración del viaje.
  • Punto de caída interior: Los puntos de desembarque en carriles congestionados o interiores podrían resultar en un aumento en la duración del viaje.
  • Velocidad: A mayor velocidad, menor duración del viaje

2. Funciones basadas en el coche

Los automóviles son de varios tipos, tamaños y marcas, y estas características del automóvil podrían ser vitales para los desplazamientos no solo por la seguridad de los pasajeros sino también por la duración del viaje. Generemos ahora algunas hipótesis basadas en las características del automóvil.

  • Condición de la car: Es poco probable que los autos con buen acondicionamiento tengan problemas de avería y podrían tener una duración de viaje menor
  • Tamaño del coche: Los autos de tamaño pequeño (Hatchback) pueden tener una duración de viaje menor y los autos de tamaño más grande (XUV) pueden tener una duración de viaje mayor según el tamaño del automóvil y la congestión en la ciudad.

3. Tipo de viaje

Los tipos de viaje pueden ser diferentes según los proveedores de viajes: puede ser un viaje en una estación remota, viajes individuales o en grupo. Definamos ahora una hipótesis en función del tipo de viaje utilizado.

  • Coche piscina: Los viajes con agrupación pueden aumentar la duración del viaje, ya que el automóvil llega a varios lugares antes de llegar al destino asignado.

4. Funciones basadas en los detalles del controlador

Un conductor es una persona importante en lo que respecta al tiempo de viaje. Varios factores sobre el conductor pueden ayudar a comprender la razón detrás de la duración del viaje y aquí hay algunas hipótesis al respecto.

  • Edad del conductor: Los conductores mayores podrían tener más cuidado y contribuir a una mayor duración del viaje.
  • Género: Es probable que las mujeres conductoras conduzcan lentamente y esto podría contribuir a una mayor duración del viaje.
  • Experiencia del conductor: Los conductores con menos experiencia de conducción pueden provocar una mayor duración del viaje.
  • Condición médica: Los conductores con una afección médica pueden contribuir a una mayor duración del viaje.

5. Datos del pasajero

Los pasajeros pueden influir en la duración del viaje a sabiendas o sin saberlo. Por lo general, nos encontramos con pasajeros que solicitan a los conductores que aumenten la velocidad ya que se están haciendo tarde y podría haber otros factores para formular hipótesis que podemos considerar.

  • Edad de los pasajeros: Las personas mayores como pasajeros pueden contribuir a una mayor duración del viaje, ya que los conductores tienden a ir más lentos en los viajes que involucran a personas mayores.
  • Condiciones médicas o embarazo: Los pasajeros con afecciones médicas contribuyen a una mayor duración del viaje.
  • Emergencia: Los pasajeros con una emergencia podrían contribuir a reducir la duración del viaje.
  • Recuento de pasajeros: Un mayor número de pasajeros conduce a viajes de menor duración debido a la congestión en los asientos

6. Funciones de fecha y hora

El día y la hora de la semana son importantes, ya que Nueva York es una ciudad ocupada y podría estar muy congestionada durante las horas de oficina o los días de semana. Generemos ahora algunas hipótesis sobre las características basadas en la fecha y la hora.

Día de recogida:

  • Los fines de semana podrían contribuir a más viajes en estaciones remotas y podrían tener una mayor duración de viaje.
  • Los días de semana tienden a tener una mayor duración de viaje debido al alto tráfico.
  • Si el día de recogida es festivo, la duración del viaje puede ser más corta.
  • Si el día de recogida cae en una semana festiva, la duración del viaje podría ser menor debido al menor tráfico.

Tiempo:

  • Los viajes a primera hora de la mañana tienen una duración de viaje menor debido al menor tráfico
  • Los viajes nocturnos tienen una mayor duración de viaje debido a las horas pico

7. Funciones basadas en carreteras

Los caminos son de diferentes tipos y el estado del camino o las obstrucciones en el camino son factores que no se pueden ignorar. Formemos algunas hipótesis basadas en estos factores.

  • Estado de la carretera: La duración del viaje es mayor si el estado de la carretera es malo
  • Tipo de camino: Los viajes en carreteras de concreto tienden a tener una menor duración de viaje.
  • Huelga en la carretera: Las huelgas realizadas en las carreteras en el sentido del viaje hacen que la duración del viaje aumente

8. Funciones basadas en el clima

El clima puede cambiar en cualquier momento y posiblemente podría afectar el viaje si el clima empeora. Por lo tanto, esta es una característica importante a considerar en nuestra hipótesis.

  • Clima al inicio del viaje: La condición de clima lluvioso contribuye a una mayor duración del viaje

Notas finales

  • Después de escribir nuestra hipótesis y mirar el conjunto de datos notará que habría cubierto la redacción de hipótesis sobre la mayoría de las características presentes en el conjunto de datos. También podría existir la posibilidad de que tenga que trabajar con menos funciones y las funciones sobre las que ha generado hipótesis no estén siendo capturadas / almacenadas actualmente por la empresa y no estén disponibles.
  • Siempre siga adelante y capture datos de fuentes externas si cree que los datos son relevantes para su predicción. Ej .: Obtener información meteorológica
  • También es importante señalar que, dado que la generación de hipótesis es una suposición estimada, la hipótesis generada podría resultar verdadera o falsa una vez que se realicen análisis de datos exploratorios y pruebas de hipótesis sobre los datos.

Espero que hayas podido sacar algo de valor a esta publicación. Si hay algo que me perdí o algo inexacto o si tiene algún comentario, hágamelo saber en los comentarios. Me sería de gran aprecio.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.