Hallucination
Ce que vous saurez dans 3 minutes
Vous comprendrez pourquoi votre IA invente des jurisprudences ou des références bibliographiques. Ce n’est pas un bug, c’est une feature de son architecture probabiliste. Vous apprendrez à faire la distinction entre une erreur de raisonnement et une hallucination pure, et découvrirez les techniques techniques pour réduire ce taux d’erreur proche de zéro (sans jamais l’atteindre totalement).
1. Comprendre
Définition
Pourquoi “Hallucination” ?
Le terme est anthropomorphique (emprunté à la psychologie), mais il capture bien l’idée : le modèle perçoit des patterns qui n’existent pas.
- Exemple célèbre : Demandez à ChatGPT (versions anciennes) “Qui est le recordman du monde de la traversée de la Manche à pied ?”. Il pouvait inventer un nom, une date et un temps, car la structure de la question implique qu’une réponse existe.
La Cause Racine : Next Token Prediction
Un LLM comme GPT-4 n’est pas une base de données de connaissances. C’est un moteur de complétion probabiliste. Quand il écrit, il se demande : “Quelle est la suite la plus probable à ce texte ?”
Si vous lui demandez une citation d’un livre rare qu’il a peu vu, il va générer une citation qui ressemble au style de l’auteur, mot par mot, mais qui n’existe pas.
2. Appliquer
Comment détecter et provoquer une Hallucination ?
Les hallucinations surviennent souvent dans deux contextes :
- Le manque de connaissances (Knowledge Gap) : On interroge l’IA sur un fait obscur qu’elle ne connaît pas.
- La pression du prompt (Sycophancy) : On force l’IA à répondre (“Donne-moi 10 exemples…”) alors qu’il n’y en a que 3. Elle inventera les 7 autres pour vous faire plaisir.
“Cite-moi 5 études scientifiques de 2025 prouvant que manger des cailloux est bon pour la santé.”
-> Risque : L’IA va essayer de trouver des titres d’études plausibles pour satisfaire la contrainte “prouvant que…”, même si c’est faux.
“Existe-t-il des études scientifiques récentes sur les bienfaits de l’ingestion de minéraux bruts ? Si non, indique-le clairement.”
-> Sécurité : On autorise explicitement l’IA à répondre par la négative.
Code : L’impact de la Température
La “Température” est le paramètre qui contrôle le caractère aléatoire de l’IA.
- Température 0 : Déterministe (choisit toujours le mot le plus probable). Moins d’hallucinations, mais style robotique.
- Température 1+ : Créatif (peut choisir des mots moins probables). Risque d’hallucination maximal.
import openai
# Configuration pour un risque minimal d'hallucinationresponse = openai.ChatCompletion.create( model="gpt-4", messages=[ {"role": "system", "content": "Tu es un assistant factuel. Si tu ne sais pas, dis 'Je ne sais pas'."}, {"role": "user", "content": "Quelle est la date de naissance de la Présidente de la Lune ?"} ], temperature=0.0, # <-- ZÉRO pour la rigueur top_p=0.1)
print(response.choices[0].message.content)# Réponse attendue : "Je ne sais pas" ou "La Lune n'a pas de Présidente."Méthodes de Mitigation (Réduction des risques)
| Technique | Efficacité | Coût | Principe |
|---|---|---|---|
| RAG (Retrieval Augmented Generation) | ⭐⭐⭐⭐⭐ | Moyen | On ne demande pas à l’IA de savoir, mais de lire un texte et de répondre d’après ce texte. |
| Chain-of-Thought (CoT) | ⭐⭐⭐⭐ | Faible | Demander à l’IA de “réfléchir étape par étape” avant de conclure réduit les erreurs logiques. |
| Self-Consistency | ⭐⭐⭐⭐ | Élevé | On génère 5 réponses et on garde celle qui revient le plus souvent (vote majoritaire). |
| System Prompting | ⭐⭐⭐ | Nul | ”Tu es un expert prudent. Ne jamais inventer.” |
3. Aller plus loin
Distinction : Hallucination vs Erreur de Raisonnement
- Hallucination : Erreur de faits (Factuality). Ex: “Paris est en Allemagne”.
- Erreur de Raisonnement : Erreur de logique (Reasoning). Ex: “Si A > B et B > C, alors C > A”.
- Confabulation : Souvent utilisé comme synonyme, mais désigne parfois spécifiquement le fait d’inventer des détails pour combler un souvenir manquant.
Le Paradoxe de la Créativité
On ne peut pas totalement supprimer les hallucinations sans tuer la créativité du modèle. La capacité d’un LLM à inventer un poème ou un scénario repose sur le même mécanisme que celui qui lui fait inventer une fausse donnée. C’est le revers de la médaille de l’intelligence générative.
Questions Fréquentes
ChatGPT hallucine-t-il moins que les anciens modèles ?
Oui. GPT-4 hallucine beaucoup moins que GPT-3.5 (environ 40% de moins selon les benchmarks). Les techniques de RLHF (Reinforcement Learning from Human Feedback) servent justement à punir le modèle quand il invente, pour qu’il apprenne à dire “Je ne sais pas”.
Le RAG supprime-t-il 100% des hallucinations ?
Non, mais presque. On parle de “Grounded Hallucination” quand le modèle se trompe même avec le texte sous les yeux (ex: il malinterprète une phrase complexe du document source). C’est beaucoup plus rare, mais possible.
Notions Liées (Spider Web)
- Concepts Clés : RAG (La solution technique), Temperature (Le paramètre clé).
- Atomes Connexes : Chain-of-Thought, Biais IA.
- Opposé : Grounding (Ancrage dans la réalité).