¿Qué es el análisis predictivo? Una guía introductoria

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos

Introducción

estadística, aprendizaje automático, modelado matemático e inteligencia artificial se conoce como analítica predictiva. Con la ayuda de datos pasados, hace predicciones. Usamos la analítica predictiva en nuestro día a día sin pensarlo mucho. Por ejemplo, predecir las ventas de un artículo (por ejemplo, flores) en un mercado para un día en particular. Si es el día de San Valentín, ¡las ventas de rosas serían altas! Podemos decir fácilmente que las ventas de flores serían mayores en los días festivos que en los días normales.

En el análisis predictivo, encontramos los factores responsables, recopilamos datos, aplicamos técnicas de aprendizaje automático, minería de datos, modelado predictivo y otras técnicas analíticas para predecir el futuro. Los conocimientos de los datos incluyen patrones, la relación entre diferentes factores que podrían ser previamente desconocidos. Desentrañar esos conocimientos ocultos vale más de lo que crees. Las empresas utilizan el análisis predictivo para mejorar su proceso y lograr sus objetivos. La información obtenida de datos estructurados y no estructurados se puede utilizar para análisis predictivos.

¿Cómo ayudan las estadísticas de datos?

En los últimos años, las organizaciones han optado por recopilar grandes cantidades de datos asumiendo que, si recopilan una cantidad suficiente, eventualmente darán lugar a información empresarial relevante. Incluso Instagram y Facebook brindan información sobre las cuentas comerciales. Pero, los datos en su forma sin procesar no son útiles sin importar cuán grandes sean. Cuantos más datos hay que analizar, más difícil es separar la información empresarial valiosa de la irrelevante. Una estrategia de conocimiento de datos se basa en el potencial real de los datos, primero debe determinar por qué los está utilizando y qué valor comercial espera obtener de ellos. A continuación, se explica cómo obtener información valiosa a partir de los datos y cómo utilizarlos.

1. Definición del enunciado del problema / objetivo comercial.

Definir los resultados del proyecto, los entregables, el alcance del esfuerzo, los objetivos comerciales, preparar un cuestionario para los datos que se obtendrán en función del objetivo comercial.

2. Recolección de datos basados ​​en las respuestas a las preguntas creadas en base al planteamiento del problema.

Basándose en el cuestionario, recopile las respuestas en forma de conjuntos de datos.

3. Integre los datos obtenidos de diversas fuentes.

La minería de datos para análisis predictivo prepara datos de múltiples fuentes para su análisis. Esto proporciona una vista completa de las interacciones con el cliente.

4. Análisis de datos con herramientas / software de analítica. Podemos visualizar los datos para observar patrones y relaciones entre varios factores.

El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil para llegar a una conclusión.

5. Validar supuestos, hipótesis y probarlos utilizando modelos estadísticos.

El análisis estadístico permite validar los supuestos, hipótesis y probarlos mediante modelos estadísticos. Las suposiciones se basan en el planteamiento del problema, formado durante la EDA.

6. Generación de modelos

El modelo se genera con algoritmos para automatizar el proceso con los nuevos datos combinados con los datos existentes. También se pueden combinar varios modelos para obtener mejores resultados.

7. Implementar el modelo para generar predicciones y monitorear su precisión.

La implementación del modelo predictivo brinda la opción de implementar los resultados analíticos en el proceso diario de toma de decisiones para obtener resultados, informes y salidas al automatizar las decisiones basadas en el modelado.

Además, administramos y monitoreamos el desempeño del modelo para asegurarnos de que esté brindando los resultados esperados.

analítica predictiva

Los datos incorrectos o incompletos pueden dar lugar a modelos deficientes y precisión que provocan el caos. Por eso es extremadamente necesario tener un conjunto de datos adecuado para obtener información y entrenar el modelo. La analítica predictiva tiene sus propios desafíos, pero puede conducir a resultados comerciales invaluables, incluida la captación de clientes antes de que abandonen, la optimización del presupuesto comercial y la satisfacción de la demanda de los clientes.

Modelos y algoritmos

Varias técnicas de dominios, incluido el aprendizaje automático, la minería de datos, las estadísticas, el análisis y el modelado, se utilizan en el análisis predictivo. Los algoritmos predictivos se pueden clasificar ampliamente en dos grupos: modelos de aprendizaje automático y modelos de aprendizaje profundo. Algunos de ellos se describen en este artículo. Aunque tienen sus propios méritos y deméritos, un gran mérito de todos ellos es que son reutilizables y se pueden entrenar utilizando algoritmos con reglas específicas de la empresa. El análisis predictivo es un proceso iterativo que implica la recopilación, el preprocesamiento, el modelado y la implementación de datos para obtener resultados. Podemos automatizar el proceso para proporcionarnos nuevas predicciones basadas en los nuevos datos que se alimentan regularmente a lo largo del tiempo.

Una vez que se entrena un modelo, podemos ingresar nuevos datos para obtener predicciones y no es necesario entrenar una y otra vez, pero una desventaja es que necesita una gran cantidad de datos para ser entrenado. Dado que el análisis predictivo se basa en algoritmos de aprendizaje automático, requiere una clasificación adecuada de los datos en las etiquetas, lo que, de lo contrario, provocaría un rendimiento y una precisión deficientes. La generalización es un problema, ya que el modelo tiene poca capacidad para transferir sus hallazgos de un caso a otro. Aunque existen algunos problemas de aplicabilidad cuando se trata de los hallazgos derivados de un modelo de análisis predictivo, pueden resolverse mediante ciertos métodos, como el aprendizaje por transferencia.

Modelos de analítica predictiva

  1. Modelo de clasificación

Es uno de los modelos más simples. Clasifica los datos nuevos en función de lo que aprendió de los datos históricos. Son los mejores para la clasificación binaria al responder preguntas binarias como Sí / No, Verdadero / Falso, pero también se pueden usar para la clasificación multiclase. Los árboles de decisión, las máquinas de vectores de soporte son algunos algoritmos de clasificación.

P.ej. : La aprobación de préstamos es un caso de uso clásico de un modelo de clasificación. Otro ejemplo son los mensajes / correos electrónicos de detección de spam.

789891_sxautv4lcotjlxxc8q3kyw-9160995
  1. Modelo de agrupación en clústeres

Un modelo de agrupamiento clasifica los puntos de datos en grupos según la similitud de los atributos. Hay muchos algoritmos de agrupación en clústeres, pero ningún algoritmo puede considerarse el mejor para todos los casos de uso. Es un algoritmo de aprendizaje no supervisado, a diferencia de la clasificación supervisada.

Por ejemplo: Agrupar a los estudiantes de una escuela en función de su ubicación en una ciudad para los servicios de transporte. Agrupar a los clientes en función de sus preferencias de artículos para recomendar productos relacionados con sus intereses.

  1. Modelo de pronóstico

Al ser uno de los modelos de análisis predictivo más utilizados, se ocupa de la predicción de valores métricos, estimando un valor numérico para nuevos datos basándose en lo aprendido de datos históricos. Se puede aplicar siempre que haya datos numéricos disponibles.

Ej .: Predicción de tráfico en la vía principal de una ciudad durante diferentes periodos. Tiendas estimando disponibilidad de productos en su almacén.

  1. Modelo de valores atípicos

Como sugiere el nombre, se basa en las entradas de datos anómalas en su conjunto de datos. Un valor atípico podría ser un error de entrada de datos, error de medición, error experimental, intencional, error de procesamiento de datos, error de muestreo o error natural. Aunque los valores atípicos pueden provocar un rendimiento y una precisión deficientes, algunos nos ayudan a encontrar la novedad oa observar nuevas inferencias.

Ej .: Robo de tarjetas de crédito / débito.

945300_r9u16eecszhpjh4o_-460x324-5522126
  1. Modelo de serie temporal

Se puede utilizar para cualquier secuencia de puntos de datos con un período de tiempo como parámetro de entrada. Utiliza los datos pasados ​​para desarrollar una métrica numérica y predice los datos futuros utilizando esa métrica.

Ej .: predicción meteorológica, mercado de acciones / predicción de precios de criptomonedas.

Algunos algoritmos predictivos comunes son Random Forests, modelo lineal generalizado, modelo de gradiente reforzado, agrupación de K-medias y Prophet. El bosque aleatorio es una combinación de árboles de decisión, en los que intentan lograr el menor error posible mediante el uso de la técnica de «embolsado» o «impulso». El modelo lineal generalizado es una variante más compleja del modelo lineal general que se entrena muy rápidamente. La variable de respuesta puede tener cualquier forma de tipo de distribución exponencial que proporcione una comprensión clara de cómo los predictores influyen en el resultado.

Aunque son resistentes al sobreajuste, requieren un gran conjunto de datos para el entrenamiento y son susceptibles a valores atípicos. Gradient Boosted Model es un modelo de predicción basado en un conjunto de árboles de decisión. A diferencia de los bosques aleatorios, construyen un árbol a la vez y corrigen los errores anteriores mientras construyen un árbol nuevo. K-means es útil cuando se busca implementar un plan personalizado en un gran conjunto de datos. Se utiliza en modelos de agrupamiento. El profeta es un algoritmo utilizado en las series de tiempo y los modelos de pronóstico. No solo es automático, también incorpora heurísticas y suposiciones útiles. Es popular por ser rápido, confiable y robusto.

Algunos u

Predictive Analytics como se dijo ya tiene muchas aplicaciones en diferentes dominios. Por mencionar algunos,

  1. Cuidado de la salud
  2. Análisis de colección
  3. Detección de fraudes
  4. Gestión de riesgos
  5. Marketing directo
  6. Cruz-

Entonces, ¿cómo ayudan exactamente en sus dominios? Recibimos alertas cuando iniciamos sesión en nuestra cuenta de Gmail desde un nuevo dispositivo. Recibimos alertas cuando usamos nuestras tarjetas de crédito / débito en nuevos lugares. ¿Cómo lo detectan? Con el análisis predictivo, los examinadores de fraude toman pocos conjuntos de variables predeterminadas que se sabe que están involucradas en eventos de fraude pasados ​​y colocan esas variables en procesos para determinar la probabilidad de que los resultados o eventos futuros sean o no un fraude. Supongamos que usa regularmente sus tarjetas de crédito en Kerala, cuando su tarjeta de crédito se usa en Nueva Delhi es un posible caso de fraude. Commonwealth Bank utiliza análisis para predecir la probabilidad de actividad fraudulenta para cualquier transacción dada antes de que sea autorizada, dentro de los 40 milisegundos posteriores al inicio de la transacción.

Además de detectar el fraude en las reclamaciones, la industria de los seguros de salud está tomando medidas para identificar a los pacientes con mayor riesgo de padecer enfermedades crónicas y encontrar las mejores intervenciones. Express Scripts, una gran empresa de beneficios farmacéuticos, utiliza análisis para identificar a aquellos que no se adhieren a los tratamientos prescritos, lo que genera ahorros significativos. Las aplicaciones de análisis predictivo analizan el gasto, el uso y otros comportamientos de los clientes, lo que lleva a ventas cruzadas eficientes o vende productos adicionales a clientes actuales para una organización que ofrece múltiples productos.

Sobre el Autor

Soy Keerthana, una estudiante de ciencia de datos fascinada por las matemáticas y sus aplicaciones en otros dominios. También me interesa escribir artículos relacionados con las matemáticas y la ciencia de datos. Puedes conectarte conmigo en LinkedIn y Instagram. Mira mis otros artículos aquí.

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.