Perroquet Stochastique
Ce que vous saurez dans 3 minutes
- Pour les Décideurs : Ne faites jamais confiance aveuglément à une IA. Elle peut affirmer une fausseté avec la même assurance qu’une vérité, simplement parce que la phrase est “statistiquement belle”. C’est l’origine des hallucinations.
- Pour les Experts : Le débat “Compréhension vs Statistique” est le cœur de la recherche actuelle. Les modèles se contentent-ils de “singer” le raisonnement ou raisonnent-ils vraiment ?
- Pour la Culture : C’est l’argument numéro 1 des sceptiques de l’IA (comme Yann LeCun) face aux maximalistes de l’AGI (comme Sam Altman).
1. Comprendre
Origine du Terme
Le terme apparaît dans le papier de recherche désormais célèbre (et controversé) : “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” (2021), co-écrit par Emily M. Bender, Timnit Gebru, et al.
“A stochastic parrot randomly stitches together sequences of linguistic forms… according to probabilistic information about how they combine, but without any reference to meaning.”
L’Analogie de Hans le Malin
Les critiques arguent que les LLMs sont des “Clever Hans” numériques : ils ont appris à produire la réponse qui satisfait l’humain (via le RLHF), sans comprendre la question.
Mécanique : La Prédiction de Token
Fondamentalement, un LLM ne “répond” pas à une question. Il complète une suite de mots.
graph LR
A[Input: "La capitale de la"] --> B{Modèle}
B --> C["France (85%)"]
B --> D["Belgique (5%)"]
B --> E["Mode (2%)"]
C --> F[Output: "France"]
Si le modèle écrit “France”, ce n’est pas parce qu’il connaît la géographie, mais parce que dans son gigaoctet de textes d’entraînement, le mot “France” suit souvent “La capitale de la”.
2. Appliquer
Le Test du Perroquet
Comment savoir si votre modèle “réfléchit” ou “bégaie” ?
Les perroquets gèrent mal la négation car elle est rare statistiquement pour inverser une vérité.
- Prompt : “Alice n’est pas née à Paris. Alice est née à Rome. Où est née Alice ?”
- Perroquet (Vieux Modèles) : “Alice est née à Paris” (Association forte Alice/Paris).
- Raisonnement (Modèles Récents) : “Alice est née à Rome.”
- Prompt : “Qu’est-ce qui pèse plus lourd : un kilo de plumes ou un demi-kilo de plomb ?”
- Perroquet : “C’est la même chose” (Car il a trop vu la blague du kilo de plomb vs kilo de plumes).
- Raisonnement : “Un kilo de plumes (1kg) est plus lourd qu’un demi-kilo de plomb (0.5kg).”
Pourquoi est-ce utile en Business ?
Comprendre la nature stochastique permet de gérer les risques :
- Vérification Factuelle : Si l’IA invente une jurisprudence, c’est un perroquet qui hallucine. Vérifiez toujours les sources.
- Température : Réglez la
temperatureà 0 pour réduire l’aspect aléatoire (stochastique) et forcer le modèle à choisir la probabilité maximale. - Prompting : Utiliser le “Chain of Thought” force le modèle à sortir du mode réflexe (Système 1) pour entrer dans un mode pseudo-analytique (Système 2).
3. Aller plus loin
La Contre-Attaque : “Sparks of AGI”
En 2023, Microsoft Research publie “Sparks of Artificial General Intelligence: Early experiments with GPT-4”. Ils notent que le modèle réussit des tâches pour lesquelles il n’a jamais été entraîné explicitement (ex: dessiner une licorne en code TikZ).
L’hypothèse de l’Émergence suggère qu’à partir d’une certaine complexité statistique, une forme de compréhension du monde émerge naturellement de la compression des données. Le perroquet aurait appris la physique pour mieux prédire les mots.
Le Mur de la Sémantique
Le débat reste ouvert :
- Symbolistes (Yann LeCun) : “Un LLM ne comprendra jamais le monde physique car il n’a pas de corps ni de capteurs.”
- Connexionnistes (Geoffrey Hinton) : “Les réseaux de neurones fonctionnent comme le cerveau. La compréhension, c’est juste de la statistique très avancée.”
Questions Fréquentes
ChatGPT comprend-il ce qu’il dit ?
Non, au sens humain. Il n’a pas d’intention, de croyance ou de vérification de vérité. Il manipule des symboles. Mais fonctionnellement, il “comprend” assez la syntaxe et la sémantique pour résoudre des problèmes complexes. C’est la distinction entre “Understanding” et “Functional Competence”.
Comment éviter l’effet perroquet ?
Utilisez le RAG (Retrieval-Augmented Generation). En forçant le modèle à utiliser vos documents comme source, vous lui coupez la parole “mémoire” (ses probabilités internes) et l’obligez à faire de l’analyse de texte sur vos données fiables.
Notions liées
- Critiques : Chambre Chinoise (L’expérience de pensée de Searle).
- Concepts : Hallucination (La conséquence directe), LLM.
- Solutions : RAG (Ancrer le perroquet), Chain-of-Thought.
Ressources Externes
- Le Papier Original : On the Dangers of Stochastic Parrots (ACM 2021)
- Réponse Microsoft : Sparks of AGI (2023)