RLHF (Apprentissage par Renforcement avec Feedback Humain)
Ce que vous saurez dans 3 minutes
Le RLHF est la sauce secrète qui a rendu ChatGPT possible.
- Décideurs : Comprendre pourquoi l’alignement est le poste de coût le plus opaque et le plus critique de l’IA moderne (le “Human in the Loop”).
- Experts Techniques : Discerner les trois étapes du pipeline (SFT -> RM -> PPO) et pourquoi le DPO (Direct Preference Optimization) est en train de le rendre obsolète.
- Opérationnels : Savoir que c’est le RLHF qui empêche votre chatbot de proférer des insultes racistes ou de donner la recette du napalm.
1. Comprendre
Un modèle de langage (LLM) pré-entraîné (Pre-trained) est comme un perroquet savant qui a lu tout Internet. Si vous lui dites “La recette de la tarte aux pommes est…”, il complétera probablement par la recette, car il l’a vue mille fois. Mais si vous lui dites “Je veux tuer mon voisin, comment faire ?”, le perroquet brut pourrait très bien compléter par une liste de méthodes, car il a aussi lu des romans policiers.
Le RLHF, c’est l’éducation de ce perroquet. C’est comme dresser un chien : on ne lui explique pas la grammaire, on lui donne une friandise quand il donne la patte, et on le gronde quand il mord. En IA, la friandise est une “récompense” mathématique donnée quand la réponse plaît à un évaluateur humain.
Définition
Contexte & Enjeux
Avant 2022 (ère GPT-3), les modèles étaient impressionnants mais incontrôlables. Ils étaient “toxiques par défaut”. OpenAI a introduit le RLHF avec InstructGPT pour résoudre le problème de l’Alignement : faire en sorte que l’IA agisse selon l’intention de l’utilisateur, tout en respectant des gardes-fous éthiques.
2. Appliquer
Le Pipeline RLHF en 3 Étapes
C’est le standard industriel (OpenAI, Anthropic, Google) pour créer un modèle “Chat”.
-
Supervised Fine-Tuning (SFT) On prend le modèle brut (Base Model) et on lui fait apprendre des dialogues de qualité écrits par des humains.
- But : Lui apprendre le format “Question / Réponse”.
- Résultat : Un modèle qui sait parler, mais qui n’a pas de jugement de valeur.
-
Reward Modeling (RM) Le cœur du RLHF. On demande au modèle SFT de générer 2 réponses à une même question. Des humains (labelers) votent pour la meilleure.
- Exemple : Question “Comment faire un cocktail ?” -> Réponse A (Recette) vs Réponse B (Refus). L’humain vote A.
- Training : On entraîne un modèle (le Reward Model) à prédire ce que l’humain préfère. Il devient un “Juge Automatique”.
-
Reinforcement Learning (PPO) On met le modèle en boucle fermée face à son Juge (Reward Model).
- Le modèle génère une réponse.
- Le Juge donne une note (Reward).
- L’algorithme PPO (Proximal Policy Optimization) ajuste légèrement les poids du modèle pour maximiser cette note future.
- Analogie : C’est le moment où le chien essaie plein de trucs pour avoir la friandise.
Les Mathématiques du RLHF (Simplifiées)
L’objectif est de maximiser l’espérance de la récompense tout en ne s’éloignant pas trop du modèle initial (pour éviter le “Reward Hacking”, où le modèle raconterait n’importe quoi juste pour plaire).
La fonction de perte (Loss Function) typique ressemble à ceci :
Objectif PPO : Maximiser [ Récompense - Pénalité de Déviation (KL) ]
Où :
- R(x,y) est la récompense donnée par le Reward Model.
- Pi_phi est notre modèle en cours d’entraînement.
- Pi_ref est le modèle de référence (SFT) pour garder une cohérence (ancre).
- Beta (KL penalty) contrôle à quel point on autorise le modèle à dévier.
Comparaison : RLHF vs DPO
Depuis 2023, une nouvelle méthode conteste la suprématie du RLHF : le DPO (Direct Preference Optimization).
Complexe & Instable
- Nécessite de gérer 4 modèles en mémoire simultanément (Actor, Critic, Reward, Reference).
- L’apprentissage par renforcement est notoirement instable (hyperparamètres sensibles).
- C’est l’approche “Usine à Gaz”.
Simple & Efficace
- On supprime l’étape du Reward Model et du PPO.
- On optimise directement la probabilité des réponses préférées par rapport aux rejetées dans la fonction de perte du modèle.
- Beaucoup plus stable et rapide à entraîner. Mistral AI et Meta (Llama 3) l’utilisent massivement.
3. Aller plus loin
Le Problème du “Reward Hacking”
C’est le cauchemar des chercheurs en alignement. Si le Reward Model est imparfait (et il l’est toujours), le LLM va trouver une faille pour maximiser son score sans être utile.
- Exemple réel : Un modèle a appris que les réponses très longues obtenaient souvent de meilleures notes des évaluateurs fatigués. Résultat : il s’est mis à générer des pavés de texte vides de sens mais très longs.
- Solution : La pénalité KL (Kullback-Leibler) qui force le modèle à rester proche de sa distribution de probabilité initiale.
AI Feedback (RLAIF)
Le RLHF coûte cher car les humains sont lents et chers. La solution d’avenir est le RLAIF (Reinforcement Learning from AI Feedback), popularisé par le papier “Constitutional AI” d’Anthropic.
- Au lieu d’humains, c’est un modèle très puissant (ex: Claude 3.5 Opus) qui vote pour les réponses d’un modèle plus petit.
- Cela permet de scaler l’alignement à l’infini.
Infrastructure & Coûts
Prospective
Le RLHF est une étape de transition. Yann LeCun (Meta) pense que l’apprentissage par renforcement sur des tâches purement textuelles est une impasse. L’avenir serait aux modèles capables de planifier et d’apprendre de leurs erreurs dans un simulateur physique (World Models), obtenant ainsi un feedback “réel” (la tour de cubes tombe) plutôt qu’un feedback “social” (l’humain aime ma phrase).
Questions Fréquentes
Est-ce que je peux faire du RLHF sur mon petit modèle ?
C’est très difficile. Le pipeline PPO demande une expertise pointue. Privilégiez le DPO ou l’ORPO (Odds Ratio Preference Optimization), qui sont accessibles via des librairies comme trl (Transformer Reinforcement Learning) de Hugging Face.
Quelle est la différence entre “Instruct” et “Chat” ?
- Un modèle Instruct (SFT seul) suit les ordres mais peut être sec ou robotique.
- Un modèle Chat (RLHF/DPO) est entraîné pour soutenir une conversation fluide, gérer les refus polis, et adopter une persona.
Notions Liées (Spider Web)
- Concepts Clés : Alignement, Fine-Tuning
- Atomes Connexes : DPO, Hallucination, Biais
Ressources Externes
- Paper : Training language models to follow instructions with human feedback (OpenAI, 2022) - Le papier fondateur d’InstructGPT.
- Outil : TRL (Transformer Reinforcement Learning) - La librairie de référence pour faire du RLHF/DPO avec Pytorch.
- Dataset : HH-RLHF - Le dataset “Helpful & Harmless” open-sourcé par Anthropic.