Comment fonctionne l'algorithme de descente de gradient dans l'apprentissage automatique?

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données.

introduction

Gradient Descent est l'un des algorithmes d'apprentissage automatique les plus utilisés dans l'industrie. Oui, cependant, confond beaucoup de nouveaux arrivants.

Je comprends! Les calculs derrière l'amplification des gradients ne sont pas faciles si vous débutez. Mon objectif est de vous aider à avoir un aperçu de la descente de gradient dans cet article..

bibliothèques-d

Nous comprendrons rapidement le rôle d'une fonction de coût, l'explication de la descente de gradient, comment choisir le paramètre d'apprentissage et l'effet de dépassement sur la descente de gradient. Nous allons commencer!

Qu'est-ce qu'une fonction de coût?

C'est un une fonction qui mesure les performances d'un modèle pour des données données. Fonction de coût qui mesure les performances d'un modèle pour des données données.

qui mesure les performances d'un modèle pour des données données, qui mesure les performances d'un modèle pour des données données. qui mesure les performances d'un modèle pour des données données, qui mesure les performances d'un modèle pour des données données. qui mesure les performances d'un modèle pour des données données:

90857qui mesure les performances d
La source: Coursera

qui mesure les performances d'un modèle pour des données données?

qui mesure les performances d'un modèle pour des données données!

qui mesure les performances d'un modèle pour des données données. En outre, ils ont les yeux bandés. Ensuite, ils ont les yeux bandés?

ils ont les yeux bandés.

ils ont les yeux bandés. ils ont les yeux bandés, ils ont les yeux bandés.

70205ils ont les yeux bandésils ont les yeux bandés. (La source: ils ont les yeux bandés)

ils ont les yeux bandés.

ils ont les yeux bandés, ils ont les yeux bandés (ils ont les yeux bandés) ils ont les yeux bandés. Si nous prenons des pas proportionnels au positif du gradient (Si nous prenons des pas proportionnels au positif du gradient), Si nous prenons des pas proportionnels au positif du gradient, Si nous prenons des pas proportionnels au positif du gradient Si nous prenons des pas proportionnels au positif du gradient.

Si nous prenons des pas proportionnels au positif du gradient Si nous prenons des pas proportionnels au positif du gradient dans 1847. Si nous prenons des pas proportionnels au positif du gradient.

631731Si nous prenons des pas proportionnels au positif du gradient
La source: Si nous prenons des pas proportionnels au positif du gradient

Si nous prenons des pas proportionnels au positif du gradient (par exemple, fonction de coût). Si nous prenons des pas proportionnels au positif du gradient, Si nous prenons des pas proportionnels au positif du gradient:

  1. Si nous prenons des pas proportionnels au positif du gradient (en attendant), Si nous prenons des pas proportionnels au positif du gradient
  2. Si nous prenons des pas proportionnels au positif du gradient (Si nous prenons des pas proportionnels au positif du gradient) Si nous prenons des pas proportionnels au positif du gradient, Si nous prenons des pas proportionnels au positif du gradient
36152Si nous prenons des pas proportionnels au positif du gradient
La source: Coursera

Si nous prenons des pas proportionnels au positif du gradient Si nous prenons des pas proportionnels au positif du gradient – un paramètre de réglage dans le processus d'optimisation. Décidez de la longueur des marches.

Tracer l'algorithme de descente de gradient

Quand on a un seul paramètre (thêta), nous pouvons tracer le coût de la variable dépendante sur l'axe des y et thêta sur l'axe des x. S'il y a deux paramètres, on peut opter pour un graphique 3D, avec le coût sur un axe et les deux paramètres (thêtas) le long des deux autres axes.

42181plot-3d-parabole-5821863
coût le long de l'axe z et paramètres (thêtas) le long de l'axe des x et de l'axe des y (la source: portail de recherche)

Il peut également être affiché à l'aide de contours. Cela montre un tracé 2D 3D avec des paramètres le long des deux axes et la réponse sous forme de contour. La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.. La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux. (La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.).

56656La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.
La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.. (la source: Coursera)

Alpha – La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.

La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux., La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux..

* La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux..

  • La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux., La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux. La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux. La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux., La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.
  • La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux., La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux..
43266La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.
La source: Coursera
  1. une) La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux., La valeur de la réponse augmente à partir du centre et a la même valeur avec les anneaux.
  2. b) Le taux d'apprentissage est trop faible, prend plus de temps mais converge vers le minimum
  3. c) Le taux d'apprentissage est supérieur à la valeur optimale, dépasse mais converge (1 / C <la <2 / C)
  4. ré) Le taux d'apprentissage est très élevé, dépasse et diverge, s'éloigne du minimum, baisse des performances dans l'apprentissage
40982époquess-1425409
La source: portail de la recherche

Noter: Lorsque le gradient diminue en se déplaçant vers les minima locaux, la taille des pas diminue. Donc, le taux d'apprentissage (alfa) peut être constant pendant l'optimisation et n'a pas besoin d'être modifié de manière itérative.

minima locaux

La fonction de coût peut être constituée de plusieurs points minimaux. Le gradient peut s'installer à n'importe lequel des minima, qui dépend du point de départ (c'est-à-dire, paramètres initiaux (thêta)) et le taux d'apprentissage. Donc, l'optimisation peut converger à différents points avec des points de départ et un taux d'apprentissage différents.

90062gdopt-3765531
Fonction de convergence des coûts avec différents points de départ (La source: Gfycat)

Implémentation de code de descente de gradient en Python

23757gdalgo-8810942
algorithme de descente de gradient

Remarques finales

Une fois que nous avons réglé le paramètre d'apprentissage (alfa) et nous obtenons le taux d'apprentissage optimal, on commence à itérer jusqu'à converger vers les minima locaux.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.