Boucle d'apprentissage (1000 épisodes)

Introduction : L’artisan à mille projets

Imaginez un artisan menuisier qui reçoit une commande simple : fabriquer 1000 portes d’excellence. Le projet n’est pas bureaucratique. Chaque porte (épisode) commence avec les matériaux bruts, traverse des phases d’exécution concrètes, génère un feedback immédiat (porte qui ferme mal, finition imparfaite), et se termine par un résultat mesurable (succès ou échec).

Au 50e projet, l’artisan corrige ses mouvements. À la 500e porte, il remet en question sa méthodologie entière. À la 1000e, il ne fabrique plus une porte—il fabrique une porte sagesse. Cette transformation progressive, de l’exécution tactile à la maîtrise adaptive, c’est précisément ce que représente une boucle d’apprentissage de 1000 épisodes en intelligence artificielle.

Pourquoi 1000 ? Les trois lois de la convergence

Le fondement statistique : la loi des grands nombres

Vous connaissez le problème : effectuer 50 lancers de pièce donne une distribution bruyante (15 faces, 35 piles, totalement biaisée). Effectuer 10 000 lancers converge vers 50-50. L’apprentissage par renforcement fonctionne identiquement.

Chaque épisode génère un signal d’apprentissage bruité—la récompense immédiate, l’estimation du futur, l’action choisie—tous contaminés par la variance stochastique. La loi des grands nombres garantit que 1000 épisodes constituent le seuil critique où la variance asymptotique devient maîtrisable et la fonction de valeur Q converge vers des estimations fiables. Les théorèmes de convergence du Q-learning formalisent précisément ce nombre.

L’équilibre dynamique : exploration vs exploitation

Les 100 premiers épisodes, l’agent explore prudemment. Taux d’exploration ε ≈ 100 %, chaque action est quasi-aléatoire, comme un chercheur d’or sondant le terrain.

Vers l’épisode 500, l’équilibre bascule : ε décroît linéairement ou exponentiellement. L’agent commençait à exploiter les découvertes prometteuses tout en gardant 10-20 % de curiosité résiduelle.

À l’épisode 900-1000, ε → 0. L’agent devient déterministe, appliquant la meilleure politique apprise sans prendre aucun risque. Cette transition progressive crée une courbe en S : plateau initial, croissance accélérée au centre, saturation finale.

La réduction du regret cumulé

À chaque épisode, l’agent paie un coût (ou accumule une récompense) représentant l’écart entre sa performance courante et la performance optimale théorique. C’est le regret.

Épisode 1 : regret énorme (politique aléatoire vs optimale). Épisode 100 : regret décroît en log(t). Épisode 1000 : regret converge vers une constante ou zéro selon l’environnement. Cette décroissance suivant une fonction logarithmique ou power-law garantit que chaque épisode additionnel offre des bénéfices décroissants mais cumulatifs.

Comment : Mécaniques internes de la boucle

Architecture minimale

Avant le premier épisode, trois éléments sont statiques :

Table Q : matrice état-action Q(s,a) de dimensions |S| × |A|, initialisée aléatoirement ou à zéro. C’est la mémoire du système.
Fonction de récompense : r(s,a) → ℝ. Le signal de feedback brut.
Critères de terminaison : l’objectif (attraper la balle), l’échec (sortir du terrain), ou le timeout (1000 pas sans résultat).

Boucle d’épisode : les quatre phases

Initialisation : l’environnement remet l’agent à l’état initial s₀. La table Q demeure inchangée (pas d’amnésie entre épisodes, contrairement aux humains qui oublient).
Exécution itérative : À chaque pas intra-épisodique :
- L’agent sélectionne une action via politique ε-greedy : avec probabilité ε, action aléatoire (exploration) ; avec probabilité 1-ε, action avec max Q(s,a) (exploitation).
- L’environnement exécute l’action, retourne récompense r et nouvel état s’.
- L’agent accumule r dans le retour total de l’épisode.
Mise à jour Q-learning : Équation de Bellman décalée : $\Delta = \alpha[r + \gamma \times (1-\text{done}) \times \max_{a'} Q(s',a') - Q(s,a)]$ $Q(s,a) \leftarrow Q(s,a) + \Delta$

Le coefficient γ (discount factor, typiquement 0.99) pondère l’importance du futur versus la récompense immédiate.
Transition et réinitialisation : s ← s’. Si done=True, l’épisode se termine, environnement réinitialise pour le prochain.

Décroissance d’exploration

ε démarre à 1.0 (totale exploration) et décroît selon un schedule :

Linéaire : ε ← ε × 0.995 (chaque épisode)
Exponentiel : ε ← ε × exp(-ep/250) (plus agressif)

Cette décroissance est critique. Sans elle, à l’épisode 900, l’agent continuerait à explorer aléatoirement et ne convergerait jamais. Avec elle, la courbe d’apprentissage montre une saturation progressive.

Sous le capot : la théorie cognitive et pédagogique

Pourquoi cette analogie de l’artisan est pertinente

Les sciences cognitives distinguent trois niveaux d’automatisation progressifs :

Étape déclarative (épisodes 1-200) : l’agent (ou l’artisan) maintient une attention consciente maximale. Chaque action est délibérée. La working memory est surchargée.

Étape associative (épisodes 300-800) : les erreurs diminuent rapidement. L’agent lie progressivement états et actions optimales sans calcul explicite. C’est la phase du progrès maximal—la courbe d’apprentissage montre une pente forte.

Étape autonome (épisodes 900-1000) : l’exécution devient fluide, quasi-automatique. L’artisan ne réfléchit plus à chaque coup de rabot—sa main corrige instinctivement. Neurologiquement, ceci correspond à la procéduralisation, transition de l’hippocampe vers le striatum.

Simple boucle vs double boucle

Une distinction cruciale : la simple boucle corrige les erreurs tactiques (mauvaise action pour un état donné). La double boucle remet en question les présupposés stratégiques (ce objectif vaut-il vraiment la peine ? mes critères de succès sont-ils corrects ?).

Un apprentissage RL standard opère principalement en simple boucle : optimisation de Q(s,a) pour les états et actions existants. Vers l’épisode 700-800, certains systèmes montrent des signes de double boucle émergente—remise en question implicite du cadre d’évaluation—mais c’est rarement explicite ou intentionnel.

Études de cas concrets

DeepMind combine Q-learning et réseaux de neurones profonds (DQN) pour maîtriser Breakout en 1000 épisodes.

Épisodes 1-100 : score ~5 points, mouvements aléatoires, l’agent ne comprend pas que la balle rebondit.

Épisodes 300-500 : score 100-200 points. L’agent découvre que positionner la raquette sous la balle la récupère. Heuristiques basiques émergent.

Épisodes 700-900 : score 300+ points. Le réseau neuronal apprend des stratégies composées : lancer la balle dans les angles pour maximiser ricochets et dommages aux briques.

Épisodes 950-1000 : score 400+ points, quasi-plateau. La politique converge vers optimale locale (rarement globale sur Atari).

Leçon : DQN exploite les 1000 épisodes pour transformer pixel bruts en représentations apprises d’états pertinents (position balle, raquette, briques).

Controverses et limitations

Non-stationnarité environnementale

Le modèle des 1000 épisodes suppose un environnement stationnaire : les lois de transition P(s’|s,a) et récompenses R demeurent constantes. Or, réalité impose non-stationnarité. Les marchés financiers évoluent, les adversaires s’adaptent, les préférences humaines changent.

En environnement non-stationnaire, convergence asymptotique est mathématiquement impossible. Nombre d’épisodes requis devient infini ou conceptuellement flou. Les chercheurs contournent ceci via continual learning ou meta-learning, mais ce sont des extensions du cadre classique.

Variance et reproducibilité

Expériences RL affichent haute variance inter-graines. Un résultat montrant convergence à l’épisode 800 peut être artéfact bruyant. Solution : utiliser au minimum 10-20 graines aléatoires, tests statistiques rigoureux (Mann-Whitney U, t-tests), visualiser bandes de confiance.

Littérature académique souffre d’un biais de publication : résultats avec convergence propre à 1000 épisodes sont publiés ; expériences qui divergent ou montrent plateau décourageant restent dans les tiroirs.

Efficacité énergétique

1000 épisodes × 20 graines × infrastructure GPU/TPU = millions d’opérations. Coût énergétique substantiel. Critiques émergentes soulignent que RL « brute-force » est écologiquement insoutenable comparé à approches few-shot ou meta-learning.

Concepts clés subsidiaires

Pour approfondir ce mécanisme, comprenez que la boucle de 1000 épisodes repose sur trois piliers interdépendants : l’exploration-exploitation, qui dicte la stratégie d’action ; la fonction de valeur, qui encode les récompenses futures attendues ; et la courbe d’apprentissage, qui visualise la progression itérative.

Les concepts avancés comme apprentissage par transfert raccourcissent drastiquement le nombre d’épisodes requis (500 au lieu de 1000 sur tâche cible). À l’inverse, meta-apprentissage utilise les données de 1000 épisodes multiples tâches pour apprendre des hyper-paramètres optimaux, améliorant convergence sur tâches futures.

La hiérarchie d’apprentissage décompose grands problèmes en sous-tâches, chacune convergent sur 300-500 épisodes au lieu d’une seule tâche monolithique exigeant 5000+.

Notions liées

Sources & Références

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd éd.). MIT Press. Théorie mathématique fondamentale de RL, équation de Bellman, convergence Q-learning.
Mnih, V., et al. (2015). “Human-level control through deep reinforcement learning”. Nature, 529(7587), 529-533. Étude empirique DeepMind DQN, démonstration convergence 1000+ épisodes jeux Atari.
Bellman, R. (1957). Dynamic Programming. Princeton University Press. Formalisation équation de Bellman, fondement théorique actualisation récompenses.
Argyris, C., & Schön, D. A. (1996). Organizational Learning II: Theory, Method, and Practice. Addison-Wesley. Théorie apprentissage simple boucle vs double boucle, applications organisationnelles.
Greydanus, S., Karaletsos, T., & Ullman, D. (2019). “Benchmarking Neural Network Robustness to Common Corruptions”. arXiv:1903.12261. Analyse variance et reproducibilité expériences deep learning/RL.
Finn, C., Abbeel, P., & Levine, S. (2017). “Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”. ICML 2017. Meta-learning réduction nombre d’épisodes requis via adaptation rapide.
Zintgraf, L. M., et al. (2019). “Varibad: A deep Bayesian active learning framework for Uncertainty Modelling and Adaptive Planning”. ECCV 2019. Continual learning environnements non-stationnaires, alternative modèle 1000 épisodes stationnaire.
DataCamp. (2023). “Introduction to Reinforcement Learning with Python”. Tutoriel pratique Q-learning implémentation structure épisodique.
Teachizy. (2023). “Courbe d’apprentissage : Qu’est-ce que c’est ?”. Analyse phases d’apprentissage progression temporelle cognitives.