Cet article a été publié dans le cadre du Blogathon sur la science des données.
introduction
Je vais discuter de ce sujet en détail ci-dessous..
Étapes de régression linéaire
Comme le nom le suggère, l'idée derrière la régression linéaire est que nous devrions arriver à une équation linéaire qui décrit la relation entre les variables dépendantes et indépendantes.
Paso 1
Supposons que nous ayons un ensemble de données où x est la variable indépendante et Y est une fonction de x (Oui= f (X)). Donc, en utilisant la régression linéaire, nous pouvons former l'équation suivante (équation pour la ligne de meilleur ajustement):
Y = mx + c
Ceci est une équation d'une ligne droite où m est la pente de la ligne et c est l'intersection.
Paso 2
À présent, pour dériver la meilleure ligne d'ajustement, on affecte d'abord des valeurs aléatoires à my et c et on calcule la valeur correspondante de Y pour un x donné. Cette valeur Y est la valeur de sortie.
Paso 3
Comment la régression logistique est un algorithme d'apprentissage automatique supervisé, nous connaissons déjà la valeur du réel Y (variable dépendante). À présent, comme nous avons notre valeur de sortie calculée (représentons-le comme ??), nous pouvons vérifier si notre prédiction est exacte ou non.
Dans le cas d'une régression linéaire, on calcule cette erreur (résiduel) en utilisant la méthode MSE (erreur quadratique moyenne) et nous l'appelons la fonction de perte:
La fonction de perte peut s'écrire sous la forme:
L = 1 / n ((Oui – ??)2)
Où n est le nombre d'observations.
Paso 4
Pour obtenir la meilleure ligne d'ajustement, il faut minimiser la valeur de la fonction de perte.
Pour minimiser la fonction de perte, nous utilisons une technique appelée descente de gradient.
Analysons le fonctionnement de la descente de gradient (même si je ne vais pas entrer dans les détails, puisque ce n'est pas l'objet de cet article).
Descente graduelle
Si nous regardons la formule de la fonction de perte, l'erreur quadratique moyenne’ signifie que l'erreur est représentée en termes de second ordre.
Si nous représentons graphiquement la fonction de perte pour le poids (dans notre équation les poids sont myc), sera une courbe parabolique. Maintenant que notre vélo est de minimiser la fonction de perte, nous devons arriver à la fin de la courbe.
Pour y parvenir, nous devons prendre la dérivée du premier ordre de la fonction de perte pour les poids (myc). Ensuite on soustraira le résultat de la dérivée du poids initial en multipliant par un taux d'apprentissage (une). Nous continuerons à répéter cette étape jusqu'à ce que nous atteignions la valeur minimale (nous l'appelons les minima globaux). On fixe un seuil d'une très petite valeur (Exemple: 0.0001) comme minimums globaux. Si nous ne définissons pas la valeur seuil, cela peut prendre une éternité pour atteindre la valeur zéro exacte.
Paso 5
Une fois la fonction de perte minimisée, nous obtenons l'équation finale pour la ligne de meilleur ajustement et pouvons prédire la valeur de Y pour tout X donné.
C'est là que se termine la régression linéaire et nous ne sommes qu'à un pas de la régression logistique..
Régression logistique
Comme j'ai dit avant, fondamentalement, la régression logistique est utilisée pour classer les éléments d'un ensemble en deux groupes (classement binaire) calculer la probabilité de chaque élément de l'ensemble.
Étapes de la régression logistique
En régression logistique, nous décidons d'un seuil de probabilité. Si la probabilité d'un élément particulier est supérieure au seuil de probabilité, nous classons cet élément dans un groupe ou vice versa.
Paso 1
Pour calculer la séparation binaire, premier, nous déterminons la meilleure droite ajustée en suivant les étapes de la régression linéaire.
Paso 2
La droite de régression que nous obtenons à partir de la régression linéaire est très sensible aux valeurs aberrantes. Donc, ne fera pas un bon travail de classification de deux classes.
Donc, la valeur prédite est convertie en probabilité en la transmettant à la fonction sigmoïde.
L'équation sigmoïde:
Comme on peut le voir sur la figure. 3, nous pouvons alimenter n'importe quel nombre réel à la fonction sigmoïde et elle renverra une valeur comprise entre 0 Oui 1.
Figure 2: Courbe sigmoïde (image tirée de Wikipédia)
Donc, si nous alimentons la sortie ?? valeur à la fonction sigmoïde ré-accorde une valeur de probabilité entre 0 Oui 1.
Paso 3
Finalement, la valeur de sortie de la fonction sigmoïde devient 0 O 1 (valeurs discrètes) selon la valeur seuil. Comme d'habitude, nous fixons la valeur seuil à 0,5. De cette façon, on obtient la classification binaire.
Maintenant que nous avons l'idée de base de la relation entre la régression linéaire et la régression logistique, examinons le processus avec un exemple.
Exemple
Considérons un problème dans lequel on nous fournit un ensemble de données contenant la taille et le poids d'un groupe de personnes. Notre tâche consiste à prédire le poids pour les nouvelles entrées dans la colonne Hauteur.
Nous pouvons donc découvrir qu'il s'agit d'un problème de régression dans lequel nous allons construire un modèle de régression linéaire. Nous entraînerons le modèle avec les valeurs de taille et de poids fournies. Une fois le modèle formé, nous pouvons prédire le poids pour une valeur de taille inconnue donnée.
Figure 3: Régression linéaire
Supposons maintenant que nous ayons un champ supplémentaire Obésité et nous devons classer si une personne est obèse ou non en fonction de sa taille et de son poids fournis. Il s'agit clairement d'un problème de classification dans lequel nous devons séparer l'ensemble de données en deux classes (obèse et non obèse).
Ensuite, pour le nouveau problème, nous pouvons répéter les étapes de la régression linéaire et construire une ligne de régression. Cette fois, la ligne sera basée sur deux paramètres Hauteur et Poids et la ligne de régression s'adaptera entre deux ensembles de valeurs discrètes. Étant donné que cette ligne de régression est très sensible aux valeurs aberrantes, ne servira pas à classer deux classes.
Pour obtenir un meilleur classement, nous allons alimenter les valeurs de sortie de la droite de régression à la fonction sigmoïde. La fonction sigmoïde renvoie la probabilité de chaque valeur de sortie de la droite de régression. À présent, sur la base d'une valeur seuil prédéfinie, nous pouvons facilement classer la sortie en deux classes d'obèses ou non obèses.
Finalement, nous pouvons résumer les similitudes et les différences entre ces deux modèles.
Les similitudes entre la régression linéaire et la régression logistique
- La régression linéaire et la régression logistique sont des algorithmes d'apprentissage automatique supervisés.
- Régression linéaire et régression logistique, les deux modèles sont une régression paramétrique, c'est-à-dire, les deux modèles utilisent des équations linéaires pour les prédictions.
Ce sont toutes les similitudes que nous avons entre ces deux modèles.
Cependant, en termes de fonctionnalité, ces deux sont complètement différents. Ci-dessous les différences.
Différences entre la régression linéaire et la régression logistique
- La régression linéaire est utilisée pour gérer les problèmes de régression, tandis que la régression logistique est utilisée pour gérer les problèmes de classification.
- La régression linéaire fournit une sortie continue, mais la régression logistique fournit une sortie discrète.
- Le but de la régression linéaire est de trouver la meilleure droite d'ajustement, tandis que la régression logistique a une longueur d'avance et ajuste les valeurs de la ligne à la courbe sigmoïde.
- La méthode pour calculer la fonction de perte en régression linéaire est l'erreur quadratique moyenne, alors que pour la régression logistique c'est l'estimation du maximum de vraisemblance.
Noter: Lors de la rédaction de cet article, J'ai supposé que le lecteur est déjà familier avec le concept de base de la régression linéaire et de la régression logistique. J'espère que cet article explique la relation entre ces deux concepts.