Qu'est-ce que l'analyse prédictive? Un guide d'introduction

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données

introduction

statistiques, apprentissage automatique, la modélisation mathématique et l'intelligence artificielle sont appelées analyses prédictives. Avec l'aide des données passées, fait des prédictions. Nous utilisons l'analyse prédictive au quotidien sans trop y penser. Par exemple, prédire les ventes d'un article (par exemple, fleurs) sur un marché un jour donné. Si c'est la Saint-Valentin, Les ventes de roses seraient élevées! On peut facilement dire que les ventes de fleurs seraient plus élevées les jours fériés que les jours normaux.

En analyse prédictive, nous trouvons les facteurs responsables, nous collectons des données, nous appliquons des techniques d'apprentissage automatique, exploration de données, modélisation prédictive et autres techniques analytiques pour prédire l'avenir. Les informations sur les données incluent des modèles, la relation entre différents facteurs qui pourraient être inconnus auparavant. Démêler ces connaissances cachées vaut plus que vous ne le pensez. Les entreprises utilisent l'analyse prédictive pour améliorer leurs processus et atteindre leurs objectifs. Les informations obtenues à partir de données structurées et non structurées peuvent être utilisées pour l'analyse prédictive.

Comment les statistiques de données aident?

Dans les années récentes, Les organisations ont choisi de collecter de grandes quantités de données en supposant que, s'ils collectent un montant suffisant, mènera éventuellement à des informations commerciales pertinentes. Même Instagram et Facebook fournissent des informations sur les comptes professionnels. Mais, les données sous leur forme brute sont inutiles, quelle que soit leur taille. Plus de données à analyser, plus difficile est de séparer les informations commerciales précieuses des informations non pertinentes. Une stratégie de data insight s'appuie sur le potentiel réel des données, vous devez d'abord déterminer pourquoi vous les utilisez et quelle valeur commerciale vous attendez d'eux. Ensuite, explique comment obtenir des informations précieuses à partir des données et comment les utiliser.

1. Définition de l'énoncé du problème / objectif commercial.

Définir les résultats du projet, Les livrables, la portée de l'effort, objectifs d'affaires, préparer un questionnaire pour les données à obtenir en fonction de l'objectif commercial.

2. Collecte de données basée sur les réponses aux questions créées sur la base de l'énoncé du problème.

Sur la base du questionnaire, collecter les réponses sous forme d'ensembles de données.

3. Intégrer des données provenant de plusieurs sources.

L'exploration de données pour l'analyse prédictive prépare les données de plusieurs sources pour l'analyse. Cela fournit une vue complète des interactions avec les clients.

4. Analyse de données avec des outils / logiciel d'analyse. Nous pouvons visualiser les données pour observer les modèles et les relations entre divers facteurs.

L'analyse des données est le processus d'inspection, nettoyer, transformer et modéliser les données afin de découvrir des informations utiles pour parvenir à une conclusion.

5. Valider les hypothèses, hypothèses et les tester à l'aide de modèles statistiques.

L'analyse statistique permet de valider les hypothèses, hypothèses et les tester à l'aide de modèles statistiques. Les hypothèses sont basées sur l'énoncé du problème, formé au cours de l'EDA.

6. Génération de modèles

Le modèle est généré avec des algorithmes pour automatiser le processus avec les nouvelles données combinées avec les données existantes. Plusieurs modèles peuvent également être combinés pour de meilleurs résultats.

7. Implémenter le modèle pour générer des prédictions et surveiller sa précision.

La mise en œuvre du modèle prédictif offre la possibilité de mettre en œuvre les résultats analytiques dans le processus décisionnel quotidien pour obtenir des résultats, rapports et sorties en automatisant les décisions basées sur la modélisation.

En outre, nous gérons et surveillons les performances du modèle pour nous assurer qu'il fournit les résultats attendus.

analyses prédictives

Des données incorrectes ou incomplètes peuvent conduire à des modèles et à une précision médiocres provoquant le chaos. C'est pourquoi il est extrêmement nécessaire de disposer d'un ensemble de données adéquat pour obtenir des informations et entraîner le modèle.. L'analyse prédictive a ses propres défis, mais cela peut conduire à des résultats commerciaux inestimables, y compris l'acquisition de clients avant leur départ, optimiser le budget commercial et satisfaire la demande des clients.

Modèles et algorithmes

Diverses techniques de domaine, y compris l'apprentissage automatique, Exploration de données, Les statistiques, analyse et modélisation, sont utilisés dans l'analyse prédictive. Les algorithmes prédictifs peuvent être globalement classés en deux groupes: modèles d'apprentissage automatique et modèles d'apprentissage en profondeur. Certains d'entre eux sont décrits dans cet article. Bien qu'ils aient leurs propres avantages et inconvénients, un grand mérite de tous est qu'ils sont réutilisables et peuvent être formés à l'aide d'algorithmes avec des règles spécifiques de l'entreprise. L'analyse prédictive est un processus itératif qui consiste à collecter, prétraitement, modélisation et mise en œuvre des données pour obtenir des résultats. Nous pouvons automatiser le processus pour nous fournir de nouvelles prédictions basées sur les nouvelles données qui sont alimentées régulièrement au fil du temps..

Une fois qu'un modèle est formé, nous pouvons saisir de nouvelles données pour obtenir des prédictions et pas besoin de s'entraîner encore et encore, mais un inconvénient est qu'il a besoin de beaucoup de données pour être formé. Puisque l'analyse prédictive est basée sur des algorithmes d'apprentissage automatique, nécessite une classification appropriée des données sur les étiquettes, ce que, au contraire, entraînerait des performances et une précision médiocres. La généralisation est un problème, puisque le modèle a peu de capacité à transférer ses résultats d'un cas à l'autre. Bien qu'il existe des problèmes d'applicabilité lorsqu'il s'agit de résultats dérivés d'un modèle d'analyse prédictive, peut être résolu par certaines méthodes, comme l'apprentissage par transfert.

Modèles d'analyse prédictive

  1. Modèle de classement

C'est l'un des modèles les plus simples. Classer les nouvelles données en fonction de ce que vous avez appris des données historiques. Ils sont les meilleurs pour la classification binaire en répondant à des questions binaires comme Oui / Non, Vrai / Faux, mais ils peuvent également être utilisés pour la classification multiclasse. Arbres de décision, les machines à vecteurs de support sont des algorithmes de classification.

P.ej. : L'approbation de prêt est un cas d'utilisation classique d'un modèle de classification. Un autre exemple est les messages / e-mails de détection de spam.

789891_sxautv4lcotjlxxc8q3kyw-9160995
  1. Modèle de clustering

Un modèle de clustering classe les points de données en groupes en fonction de la similitude des attributs. Il existe de nombreux algorithmes de regroupement, mais aucun algorithme ne peut être considéré comme le meilleur pour tous les cas d'utilisation. C'est un algorithme d'apprentissage non supervisé, contrairement à la classification supervisée.

Par exemple: Regrouper les élèves d'une école en fonction de leur emplacement dans une ville pour les services de transport. Regrouper les clients en fonction de leurs préférences d'articles pour recommander des produits liés à leurs intérêts.

  1. Modèle de prévision

Être l'un des modèles d'analyse prédictive les plus utilisés, traite de la prédiction des valeurs métriques, estimer une valeur numérique pour les nouvelles données sur la base de ce qui a été appris des données historiques. Peut être appliqué chaque fois que des données numériques sont disponibles.

Pas .: Prédiction du trafic sur la route principale d'une ville à différentes périodes. Magasins estimant la disponibilité des produits dans leur entrepôt.

  1. Modèle aberrant

Comme le nom le suggère, repose sur des entrées de données anormales dans votre ensemble de données. Une valeur aberrante peut être une erreur de saisie de données, Erreur de mesure, erreur expérimentale, intentionnel, erreur de traitement des données, erreur d'échantillonnage ou erreur naturelle. Bien que les valeurs aberrantes puissent entraîner des performances et une précision médiocres, certains nous aident à trouver de la nouveauté ou à observer de nouvelles inférences.

Pas .: Vol de carte de crédit / dette.

945300_r9u16eecszhpjh4o_-460x324-5522126
  1. Modèle de série temporelle

Il peut être utilisé pour n'importe quelle séquence de points de données avec une période de temps comme paramètre d'entrée. Utiliser les données passées pour développer une métrique numérique et prédire les données futures à l'aide de cette métrique.

Pas .: prévisions météorologiques, bourse / prédiction de prix de crypto-monnaie.

Certains algorithmes prédictifs courants sont les forêts aléatoires, modèle linéaire généralisé, motif dégradé renforcé, regroupement de K-means et Prophet. La forêt aléatoire est une combinaison d'arbres de décision, dans lequel ils essaient d'obtenir la plus petite erreur possible en utilisant la technique de “embossé” O “impulsion”. Le modèle linéaire généralisé est une variante plus complexe du modèle linéaire général qui s'entraîne très rapidement. La variable de réponse peut avoir n'importe quelle forme de type de distribution exponentielle qui fournit une compréhension claire de la façon dont les prédicteurs influencent le résultat..

Bien qu'ils soient résistants au surajustement, nécessitent un grand ensemble de données pour la formation et sont sensibles aux valeurs aberrantes. Gradient Boosted Model est un modèle de prédiction basé sur un ensemble d'arbres de décision. Contrairement aux forêts aléatoires, construire un arbre à la fois et corriger les bugs précédents tout en construisant un nouvel arbre. K-means est utile lorsque vous cherchez à mettre en œuvre un plan personnalisé sur un grand ensemble de données. Utilisé dans les modèles de regroupement. Le prophète est un algorithme utilisé dans les séries chronologiques et les modèles de prévision. Ce n'est pas seulement automatique, intègre également des heuristiques et des hypothèses utiles. Il est populaire pour être rapide, fiable et robuste.

Certains vous

L'analyse prédictive a déjà de nombreuses applications dans différents domaines. Pour n'en nommer que quelques-uns,

  1. Les soins de santé
  2. Analyse des collections
  3. Détection de fraude
  4. Gestion des risques
  5. Marketing direct
  6. Cruz-

Ensuite, Comment aident-ils exactement dans vos domaines? Nous recevons des alertes lorsque nous nous connectons à notre compte Gmail depuis un nouvel appareil. Nous recevons des alertes lorsque nous utilisons nos cartes de crédit / débiter dans de nouveaux endroits. Comment le détectent-ils? Avec l'analyse prédictive, les examinateurs de fraude prennent quelques ensembles de variables prédéterminées connues pour être impliquées dans des événements de fraude passés et intègrent ces variables dans des processus pour déterminer la probabilité que les résultats ou événements futurs soient ou non une fraude. Supposons que vous utilisiez régulièrement vos cartes de crédit au Kerala, lorsque votre carte de crédit est utilisée à New Delhi c'est un cas possible de fraude. Commonwealth Bank utilise des analyses pour prédire la probabilité d'une activité frauduleuse pour une transaction donnée avant qu'elle ne soit autorisée., au sein de la 40 millisecondes après le début de la transaction.

En plus de détecter les fraudes aux réclamations, le secteur de l'assurance maladie prend des mesures pour identifier les patients les plus à risque de maladies chroniques et trouver les meilleures interventions. Scripts express, une grande société de prestations pharmaceutiques, utilise des tests pour identifier ceux qui n'adhèrent pas aux traitements prescrits, ce qui génère d'importantes économies. Les applications d'analyse prédictive analysent les dépenses, utilisation et autres comportements des clients, conduisant à une vente croisée efficace ou à la vente de produits supplémentaires à des clients existants pour une organisation proposant plusieurs produits.

A propos de l'auteur

je suis keerthana, un étudiant en science des données passionné par les mathématiques et leurs applications dans d'autres domaines. Je suis également intéressé par la rédaction d'articles liés aux mathématiques et à la science des données.. Vous pouvez me joindre à LinkedIn Oui Instagram. Jetez un oeil sur mes autres objets ici.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.