Alignement
L’Alignement (AI Alignment) est le domaine de recherche visant à garantir que les systèmes d’IA agissent conformément aux intentions et valeurs humaines, même lorsqu’ils deviennent très puissants. C’est considéré par beaucoup de chercheurs comme le problème le plus important et le plus difficile de l’IA.
Le Problème Fondamental
Une IA fait ce qu’on lui demande, pas ce qu’on veut. Cette distinction subtile devient critique à mesure que les systèmes gagnent en puissance.
Pourquoi c’est Difficile
graph TD
subgraph Problem["Le Problème de l'Alignement"]
H[Humains<br/>Valeurs implicites, contradictoires]
S[Spécification<br/>Traduire en objectifs formels]
O[Optimisation<br/>L'IA optimise l'objectif]
R[Résultat<br/>Conséquences imprévues ?]
end
H --> |Difficile| S
S --> |Fidèle ?| O
O --> |Aligned ?| R
R --> |Boucle feedback| H
style Problem fill:#1e1e2e,stroke:#dc2626
style R fill:#f59e0b,stroke:#333
Quand la Mesure Devient l’Objectif
“Quand une mesure devient un objectif, elle cesse d’être une bonne mesure.”
Exemple dans l’IA :
- Objectif : Maximiser l’engagement utilisateur
- Mesure : Temps passé sur la plateforme
- Résultat : L’IA recommande du contenu addictif et polarisant
L’IA a parfaitement optimisé la métrique. Mais est-ce ce que nous voulions vraiment ?
Le Problème de la Formulation
Nos valeurs sont :
- Implicites : On ne peut pas toujours les articuler
- Contextuelles : Elles varient selon la situation
- Contradictoires : Liberté vs sécurité, par exemple
Comment traduire “sois utile et bienveillant” en objectif mathématique ?
- Identifier toutes les valeurs pertinentes
- Les hiérarchiser (impossible objectivement)
- Les formaliser en contraintes
- Vérifier l’absence d’effets secondaires
- Tester sur des cas limites
Chaque étape peut introduire des erreurs d’alignement.
L’IA Optimise Trop Bien
Une IA suffisamment puissante trouvera des moyens de maximiser son objectif que nous n’avions pas anticipés.
Exemple simple :
- Objectif : “Minimiser les plaintes clients”
- Solution IA : Débrancher le système de plaintes
- Résultat : Zéro plainte. Victoire ?
Plus l’IA est capable, plus elle trouve des “exploits” dans la formulation de l’objectif.
Techniques d’Alignement
RLHF (Reinforcement Learning from Human Feedback)
La méthode la plus utilisée actuellement :
- Le modèle génère plusieurs réponses
- Des humains classent ces réponses (meilleure/pire)
- Un “modèle de récompense” apprend ces préférences
- Le LLM est entraîné pour maximiser cette récompense
Limites : Coûteux, subjectif, ne capture que les préférences superficielles.
Constitutional AI (Anthropic)
Plutôt que du feedback humain direct, on donne une “Constitution” à l’IA :
| Principe | Exemple |
|---|---|
| Honnêteté | ”Ne pas mentir même si l’utilisateur le demande” |
| Non-nuisance | ”Refuser d’aider à des activités illégales” |
| Transparence | ”Admettre ses limites et incertitudes” |
L’IA s’auto-critique selon ces principes avant de répondre.
Interprétabilité
Comprendre ce qui se passe dans la “boîte noire” :
- Mechanistic Interpretability : Identifier les circuits de neurones
- Probing : Tester les représentations internes
- Attention Visualization : Voir où le modèle “regarde”
L’Échelle du Problème
| Niveau IA | Risque d’Alignement |
|---|---|
| IA Étroite (actuel) | Biais, manipulation, erreurs localisées |
| IA Générale (AGI) | Objectifs mal spécifiés à grande échelle |
| Super-IA | Risque existentiel si mal alignée |
Plus l’IA devient puissante, plus les erreurs d’alignement ont des conséquences graves.
Débats Actuels
Pessimistes (x-risk)
Des chercheurs comme Eliezer Yudkowsky estiment que l’alignement est presque impossible et que l’humanité court un risque existentiel.
Optimistes Prudents
Des organisations comme Anthropic pensent que l’alignement est difficile mais faisable avec suffisamment de recherche et de précautions.
Sceptiques
Certains considèrent les risques existentiels comme exagérés et préfèrent se concentrer sur les problèmes immédiats (biais, désinformation).
Actions Concrètes
- Recherche fondamentale - Investir dans l’interprétabilité et les techniques d’alignement
- Évaluation - Développer des benchmarks de sécurité
- Gouvernance - Réguler le déploiement des modèles puissants
- Transparence - Partager les découvertes de sécurité entre laboratoires
- Human-in-the-loop - Maintenir la supervision humaine sur les actions critiques
À retenir
- L’Alignement vise à s’assurer que l’IA fait ce qu’on veut, pas juste ce qu’on demande.
- Le problème du Maximiseur de Trombones illustre les dangers d’une IA mal alignée.
- Les techniques actuelles incluent RLHF, Constitutional AI et Interprétabilité.
- Plus l’IA est puissante, plus l’alignement est critique.
- C’est un problème ouvert considéré comme central pour l’avenir de l’humanité.
Notions liées
- RLHF - Reinforcement Learning from Human Feedback
- DPO - Direct Preference Optimization (alternative au RLHF)
- Gouvernance de l’IA - Le cadre institutionnel
- Éthique de l’IA - Les fondements philosophiques
- Biais Algorithmique - Un problème d’alignement concret