Hallucination

Ce que vous saurez dans 3 minutes

Vous comprendrez pourquoi votre IA invente des jurisprudences ou des références bibliographiques. Ce n’est pas un bug, c’est une feature de son architecture probabiliste. Vous apprendrez à faire la distinction entre une erreur de raisonnement et une hallucination pure, et découvrirez les techniques techniques pour réduire ce taux d’erreur proche de zéro (sans jamais l’atteindre totalement).

1. Comprendre

Définition

Pourquoi “Hallucination” ?

Le terme est anthropomorphique (emprunté à la psychologie), mais il capture bien l’idée : le modèle perçoit des patterns qui n’existent pas.

Exemple célèbre : Demandez à ChatGPT (versions anciennes) “Qui est le recordman du monde de la traversée de la Manche à pied ?”. Il pouvait inventer un nom, une date et un temps, car la structure de la question implique qu’une réponse existe.

La Cause Racine : Next Token Prediction

Un LLM comme GPT-4 n’est pas une base de données de connaissances. C’est un moteur de complétion probabiliste. Quand il écrit, il se demande : “Quelle est la suite la plus probable à ce texte ?”

Si vous lui demandez une citation d’un livre rare qu’il a peu vu, il va générer une citation qui ressemble au style de l’auteur, mot par mot, mais qui n’existe pas.

2. Appliquer

Comment détecter et provoquer une Hallucination ?

Les hallucinations surviennent souvent dans deux contextes :

Le manque de connaissances (Knowledge Gap) : On interroge l’IA sur un fait obscur qu’elle ne connaît pas.
La pression du prompt (Sycophancy) : On force l’IA à répondre (“Donne-moi 10 exemples…”) alors qu’il n’y en a que 3. Elle inventera les 7 autres pour vous faire plaisir.

Prompt Risqué
Prompt Sécurisé

“Cite-moi 5 études scientifiques de 2025 prouvant que manger des cailloux est bon pour la santé.”

-> Risque : L’IA va essayer de trouver des titres d’études plausibles pour satisfaire la contrainte “prouvant que…”, même si c’est faux.

Code : L’impact de la Température

La “Température” est le paramètre qui contrôle le caractère aléatoire de l’IA.

Température 0 : Déterministe (choisit toujours le mot le plus probable). Moins d’hallucinations, mais style robotique.
Température 1+ : Créatif (peut choisir des mots moins probables). Risque d’hallucination maximal.

import openai

# Configuration pour un risque minimal d'hallucination
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "Tu es un assistant factuel. Si tu ne sais pas, dis 'Je ne sais pas'."},
        {"role": "user", "content": "Quelle est la date de naissance de la Présidente de la Lune ?"}
    ],
    temperature=0.0, # <-- ZÉRO pour la rigueur
    top_p=0.1
)

print(response.choices[0].message.content)
# Réponse attendue : "Je ne sais pas" ou "La Lune n'a pas de Présidente."

Méthodes de Mitigation (Réduction des risques)

Technique	Efficacité	Coût	Principe
RAG (Retrieval Augmented Generation)	⭐⭐⭐⭐⭐	Moyen	On ne demande pas à l’IA de savoir, mais de lire un texte et de répondre d’après ce texte.
Chain-of-Thought (CoT)	⭐⭐⭐⭐	Faible	Demander à l’IA de “réfléchir étape par étape” avant de conclure réduit les erreurs logiques.
Self-Consistency	⭐⭐⭐⭐	Élevé	On génère 5 réponses et on garde celle qui revient le plus souvent (vote majoritaire).
System Prompting	⭐⭐⭐	Nul	”Tu es un expert prudent. Ne jamais inventer.”

3. Aller plus loin

Distinction : Hallucination vs Erreur de Raisonnement

Hallucination : Erreur de faits (Factuality). Ex: “Paris est en Allemagne”.
Erreur de Raisonnement : Erreur de logique (Reasoning). Ex: “Si A > B et B > C, alors C > A”.
Confabulation : Souvent utilisé comme synonyme, mais désigne parfois spécifiquement le fait d’inventer des détails pour combler un souvenir manquant.

Le Paradoxe de la Créativité

On ne peut pas totalement supprimer les hallucinations sans tuer la créativité du modèle. La capacité d’un LLM à inventer un poème ou un scénario repose sur le même mécanisme que celui qui lui fait inventer une fausse donnée. C’est le revers de la médaille de l’intelligence générative.

Questions Fréquentes

ChatGPT hallucine-t-il moins que les anciens modèles ?

Oui. GPT-4 hallucine beaucoup moins que GPT-3.5 (environ 40% de moins selon les benchmarks). Les techniques de RLHF (Reinforcement Learning from Human Feedback) servent justement à punir le modèle quand il invente, pour qu’il apprenne à dire “Je ne sais pas”.

Le RAG supprime-t-il 100% des hallucinations ?

Non, mais presque. On parle de “Grounded Hallucination” quand le modèle se trompe même avec le texte sous les yeux (ex: il malinterprète une phrase complexe du document source). C’est beaucoup plus rare, mais possible.

Notions Liées (Spider Web)

Concepts Clés : RAG (La solution technique), Temperature (Le paramètre clé).
Atomes Connexes : Chain-of-Thought, Biais IA.
Opposé : Grounding (Ancrage dans la réalité).