Aller au contenu

Raisonnement : Chaîne de Pensée (Chain-of-Thought)

Ce que vous saurez dans 3 minutes

Le Chain-of-Thought (CoT) est la découverte qui a fait passer les LLM de “générateurs de texte” à “moteurs de raisonnement”.

  • Décideurs : C’est la technique gratuite qui augmente la fiabilité de vos prompts de 50% sur des tâches complexes.
  • Experts Techniques : Comprendre pourquoi l’allocation de “tokens de réflexion” (compute-time compute) est la clé des modèles o1 (OpenAI) et R1 (DeepSeek).
  • Opérationnels : Apprendre à structurer vos prompts pour que l’IA ne saute jamais les étapes critiques d’un processus.

1. Comprendre

Si je vous demande : “Combien font 23 x 14 ?”, vous allez probablement hésiter ou vous tromper si vous devez répondre instantanément. Mais si je vous donne un papier et que je vous dis : “Posez l’opération” :

  • 4 x 3 = 12, je pose 2 et je retiens 1…
  • 4 x 2 = 8 + 1 = 9…
  • … Vous arriverez à coup sûr à 322.

Les LLM fonctionnent exactement pareil. Par défaut, ils essaient de “deviner” la réponse finale (c’est intuitif, le “Système 1” de Kahneman). Le Chain-of-Thought consiste à les forcer à “poser l’opération” (le “Système 2”, analytique). Chaque mot généré est une brique de réflexion qui aide à poser la suivante.

Définition

Contexte & Enjeux

Avant le CoT (2022), on pensait que les LLM ne pouvaient pas raisonner, seulement faire du “perroquet stochastique”. Le papier de Google “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” a prouvé qu’il suffisait de demander au modèle de raisonner pour qu’il le fasse. Cela a ouvert la voie aux modèles de raisonnement modernes (o1/R1) où ce processus est internalisé.


2. Appliquer

Les Deux Méthodes de CoT

Il existe deux façons principales d’activer ce super-pouvoir.

La Méthode “Magique” Il suffit d’ajouter une phrase à la fin de votre prompt.

  • Prompt : "Roger a 5 balles. Il en achète 2 boîtes de 3. Combien en a-t-il ? Réfléchissons étape par étape."
  • Résultat : Le modèle va décomposer spontanément : “Roger part avec 5. Une boîte contient 3 balles. 2 boîtes font 6 balles. 5 + 6 = 11. Réponse : 11.”
  • Avantage : Universel, pas besoin d’écrire d’exemples.

Mise en œuvre pratique (Diagramme de Flux)

Voici ce qui se passe “dans la tête” du modèle avec et sans CoT.

graph TD
    subgraph "Standard Prompting (Système 1)"
        Q1[Question: Combien font 23 * 14 ?] --> A1[Génération Directe: 362 (Faux)]
    end

    subgraph "Chain-of-Thought (Système 2)"
        Q2[Question: Combien font 23 * 14 ?] --> T1[Pensée 1: Décomposons 14 en 10 + 4]
        T1 --> T2[Pensée 2: 23 * 10 = 230]
        T2 --> T3[Pensée 3: 23 * 4 = 92]
        T3 --> T4[Pensée 4: 230 + 92 = 322]
        T4 --> A2[Réponse Finale: 322 (Vrai)]
    end

    style A1 fill:#ffcdd2,stroke:#d32f2f
    style A2 fill:#c8e6c9,stroke:#388e3c
    style T1 fill:#e1f5fe
    style T2 fill:#e1f5fe
    style T3 fill:#e1f5fe
    style T4 fill:#e1f5fe

Quand utiliser le CoT ?

Le CoT n’est pas utile partout. Il consomme plus de tokens (donc coûte plus cher) et rajoute de la latence.

TâcheUtilité CoTPourquoi ?
Mathématiques⭐⭐⭐⭐⭐Indispensable pour éviter les erreurs de calcul.
Logique / Énigmes⭐⭐⭐⭐⭐“Alice est la sœur de Bob…”
Code⭐⭐⭐⭐Aider à planifier l’architecture avant de coder.
TraductionInutile, la traduction est intuitive.
Résumé⭐⭐Peu utile, sauf pour extraire des points complexes.
Classification⭐⭐⭐Utile pour justifier le choix (Explainable AI).

3. Aller plus loin

Les Modèles de Raisonnement (Reasoning Models)

Depuis fin 2024 (sortie d’OpenAI o1), le CoT n’est plus seulement une technique de prompting, c’est une architecture. Ces modèles (o1, DeepSeek R1) génèrent une “chaîne de pensée cachée” (hidden chain of thought) avant de vous répondre.

  • Inference-Time Compute : Le modèle prend du temps (10 à 60 secondes) pour réfléchir. Il explore plusieurs pistes, se corrige, vérifie ses hypothèses.
  • Ce n’est plus du “Next Token Prediction” simple, c’est de la recherche dans un arbre de possibilités (Tree of Thoughts).

Tree of Thoughts (ToT)

Le ToT est une évolution du CoT où l’IA ne suit pas une seule ligne droite, mais explore plusieurs branches, comme un joueur d’échecs.

  1. Idée A -> Impasse, retour en arrière.
  2. Idée B -> Prometteur -> Sous-Idée B1…

Self-Consistency (Auto-Cohérence)

Une technique puissante pour améliorer le CoT :

  1. On demande au modèle de générer 5 chaînes de pensée différentes pour le même problème.
  2. On regarde la réponse finale de chaque chaîne.
  3. On prend la réponse majoritaire (vote). Si 4 chaînes sur 5 arrivent à “42”, c’est probablement la bonne réponse, même si les chemins étaient différents.

Points de vigilance

Prospective

Nous entrons dans l’ère de l’IA Lentement Intelligente. La course à la vitesse (réponse en 0.1s) est finie pour les tâches complexes. L’avenir est aux modèles qui prennent le temps de réfléchir, de simuler, de coder et de tester avant de répondre. Le coût ne sera plus au token, mais au “temps de réflexion”.


Questions Fréquentes

Est-ce que “Réfléchissons étape par étape” marche encore sur GPT-4o ?

Oui, mais l’effet est moins spectaculaire que sur les petits modèles (GPT-3.5 ou Llama 8B). Les gros modèles ont déjà “internalisé” une partie de ce raisonnement. Cependant, pour les tâches très complexes, le CoT explicite reste une best practice.

Puis-je voir la chaîne de pensée des modèles o1 ou R1 ?

Sur les modèles api propriétaires (o1), souvent non (elle est cachée pour des raisons de secret industriel et de sécurité). Sur les modèles open-weights (DeepSeek R1), oui, elle est exposée dans les balises <thinking>. Analyser ces “pensées brutes” est fascinant pour comprendre comment l’IA “réfléchit”.


Notions Liées (Spider Web)

Ressources Externes