Temporal difference learning

De testwiki
Version datée du 10 décembre 2024 à 14:59 par imported>Sylenius (Changement rapide de {{portail}} : - sciences , + intelligence artificielle)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique[1]. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal[2]Modèle:,[3]Modèle:,[4]Modèle:,[5]Modèle:,[6].

Principe

Alors que les méthodes de Monte Carlo ajustent leur estimations seulement lorsque l'issue finale est connue, les méthodes TD ajustent leurs estimations en se basant sur leurs prédictions[7]. C'est une forme de bootstrap qui peut être illustrée par l'exemple suivant provenant d'un article de Richard Sutton :

Modèle:Citation blocDiagramme ci-contre : Les algorithmes TD choisissent une action (le point), puis utilisent l'estimation de la valeur de l'état successeur (le cercle du bas) pour mettre à jour la valeur de l'état courant (le cercle du haut).

Formulation mathématique

Donnons la formulation mathématique de la méthode tabulaire TD(0), l'une des méthodes TD les plus simples, qui estime la fonction de valeur d'un processus de décision markovien (PDM) selon une politique π. Le PDM n'est pas utilisé par l'algorithme, notamment l'algorithme n'a pas accès aux probabilités ; c'est pourquoi on parle d'apprentissage par renforcement sans modèle.

Notations

Soit Vπ la fonction de valeur du PDM selon la politique π. En tout état s, Vπ(s) est l'espérance des sommes récompenses obtenues avec un amortissement γ, lorsque l'agent suit la politique π depuis l'état s. Formellement, en notant Eπ{...} l'espérance lorsque l'agent suit la politique π, la suite des états s0,s1,s2,, la suite des récompenses r0,r1,r2, et l'amortissement γ , on a

Vπ(s)=Eπ{t=0γtrt|s0=s}.

La fonction de valeur Vπ satisfait l'équation de Hamilton-Jacobi-Bellman :

Vπ(s)=Eπ{r0+γVπ(s1)|s0=s},

donc r0+γVπ(s1) est une estimation non-biaisée de Vπ(s). Cette observation motive l'algorithme TD(0) pour estimer Vπ.

Description de l'algorithme

L'algorithme commence par initialiser un tableau V arbitrairement, c'est-à-dire V(s) est une valeur arbitraire pour chaque état s du PDM. On choisit un taux d'apprentissage positif α.

On répète ensuite les opérations suivantes :

  1. évaluer la politique π en fonction du tableau V courant
  2. obtenir une récompense r
  3. et mettre à jour la fonction pour l'ancien état en utilisant la règle[8] :
V(s)V(s)+α(r+γV(s)Objectif TDV(s))

s et s sont les ancien et nouvel états respectivement. La valeur r+γV(s) est appelée objectif TD.

Algorithmes

Voici une liste d'algorithmes TD :

Exemples d'applications

L'algorithme TD-Lambda, initialement développé par Richard S. Sutton[1] a été appliqué par Gerald Tesauro pour créer TD-Gammon, un programme qui a appris à jouer au backgammon à un niveau de joueur humain expert[9].

Algorithmes TD et neurosciences

Les algorithmes TD ont aussi reçu de l'attention en neurosciences. Des chercheurs ont souligné une similitude entre le taux de dopamine et le signal d'erreur de prédiction des algorithmes TD[2]Modèle:,[3]Modèle:,[4]Modèle:,[5]Modèle:,[6]. Le signal d'erreur de prédiction fournit la différence entre la récompense estimée à une itération et la récompense réellement reçue.

Voir aussi

Références

Modèle:Références

Modèle:Portail