Acrobate | Qu'est-ce qu'Acrobot

Contenu

  • s = état
  • a = action
  • r = récompense
  • t = pas de temps
  • γ = taux d'actualisation
  • α = taux d'apprentissage

Le taux d'apprentissage et le taux d'actualisation se situent entre 0 Oui 1. Ce dernier détermine à quel point nous nous soucions de la récompense future. Le plus proche de 1, nous nous soucions plus.

L'inconvénient de Q-learning est qu'il a des problèmes avec d'énormes espaces d'action et d'état. Mémoriser chaque paire d'actions et d'états possibles prend beaucoup de mémoire. Pour cette raison, nous devons combiner le Q-learning avec les techniques de Deep Learning.

Apprentissage en profondeur Q

38048dqn_acrobot-2038440
Réseau Q profond. Illustration de l'auteur.

Comme nous l'avons vu, l'algorithme Q-learning a besoin d'approximations de fonction, comme réseaux de neurones artificiels, mémoriser des triplés (état, action, valeur Q). L'idée du Deep Q learning est d'utiliser des réseaux de neurones pour prédire les valeurs de Q pour chaque action compte tenu de l'état. Si on reconsidére le jeu Acrobot, lo pasamos a la neuronal rouge artificial como entrada la información es sobre el agente (sin et cos des angles communs, vitesses). Pour obtenir les pronostics, necesitamos entrenar la red antes y definir la Fonction de perte, qui est généralement la différence entre la valeur Q prédite et la valeur Q cible.

1lcrajfxi4ypbpypqtzcntw-5982881

A diferencia del enseignement supervisé, nous n'avons aucune étiquette qui identifie la valeur Q correcte pour chaque paire état-action. En DQL, nous initialisons deux réseaux de neurones artificiels identiques, appels Réseau de destination Oui Réseau politique. Le premier sera utilisé pour calculer les valeurs cibles, tandis que le second pour déterminer la prédiction.

Par exemple, le modèle du jeu Acrobat est un réseau de neurones artificiels qui prend en entrée des observations environnementales, le sin et le cos des deux angles articulaires de rotation et des deux vitesses angulaires. Renvoie trois sorties, Q (s, + 1), Q (s, -1), Q (s, 0), où s est l'état, passé comme entrée au réseau. En réalité, l'objectif du réseau de neurones est de prédire les performances attendues de chaque action en fonction de l'entrée actuelle.

Rejouer l'expérience

1gigpobwjsil0tk9dvnttaw-6315221

ANN ne suffit pas seul. L'expérience est une technique dans laquelle nous stockons les données passées découvertes par l'agent pour (état, action, récompense, état suivant) à chaque pas du temps. Plus tard, nous échantillonnons au hasard la mémoire pour un mini lot d'expérience et l'utilisons pour entraîner le réseau de neurones artificiels. Par échantillonnage aléatoire, nous permettons de fournir des données non corrélées au modèle de réseau de neurones et d'améliorer l'efficacité des données.

Exploration vs Exploitation

L'exploration et l'exploitation sont des concepts clés de l'algorithme Deep RL. Fait référence à la façon dont l'agent sélectionne les actions. Que sont l'exploration et l'exploitation? Supposons que nous voulions aller au restaurant. L'exploration, c'est quand vous voulez essayer un nouveau restaurant, tandis que l'exploitation c'est quand tu veux rester dans ta zone de confort, vous irez donc directement dans votre restaurant préféré. Idem pour l'agent. Au début, veut explorer l'environnement. En interagissant avec l'environnement, prendre des décisions plus fondées sur l'exploitation que sur l'exploration.

Il y a deux stratégies possibles:

  • -gourmand, où l'agent effectue une action aléatoire avec une probabilité, puis explorez l'environnement et sélectionnez l'action gourmande avec probabilité 1-ε, alors on est en situation d'exploitation.
  • suave-max, où l'agent sélectionne les actions optimales en fonction des valeurs Q renvoyées par le réseau de neurones artificiels.

Toutes nos félicitations! Vous comprenez maintenant les concepts de RL et DRL à travers l'exemple d'Acrobot qui vous a présenté ce nouveau monde. L'apprentissage Deep Q a attiré beaucoup d'attention après des applications dans les jeux Atari et Go. J'espère que ce guide ne vous fait pas peur et vous encourage à approfondir le sujet. Merci pour la lecture. Passez une bonne journée!

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.