Aller au contenu

LLM (Grand Modèle de Langage)

Ce que vous saurez dans 3 minutes

Le LLM (Large Language Model) est à l’IA ce que le moteur à explosion fut à l’automobile : la pièce maîtresse d’une révolution.

  • Pour les Décideurs : Comprendre que la “taille” (paramètres) et les “données” sont les leviers de la performance (Scaling Laws).
  • Pour les Ingénieurs : Saisir que le LLM est un “prédicteur de tokens” probabiliste, pas une base de connaissances factuelle.
  • Pour le Grand Public : Démystifier la “magie” : c’est des maths, pas une conscience.

1. Comprendre

Imaginez une bibliothèque contenant tous les livres du monde. Un LLM est un bibliothécaire qui a lu tous ces livres, mais qui a une mémoire un peu spéciale : il ne retient pas les phrases par cœur, il retient les probabilités qu’un mot suive un autre. Si vous dites “Le chat est sur le…”, le modèle ne “sait” pas physiquement ce qu’est un toit, mais il “sait” statistiquement que “toit” (35%), “canapé” (20%) ou “tapis” (15%) sont les suites logiques, alors que “fraise” (0.0001%) est improbable.

Définition

Contexte & Enjeux

Avant 2017, l’IA traitait le texte mot par mot (RNN, LSTM), “oubliant” le début d’un paragraphe arrivé à la fin.

  • Le déclencheur : Le papier “Attention Is All You Need” (Google, 2017) invente le Transformer, capable de paralléliser la lecture et de gérer le contexte global.
  • L’explosion : OpenAI a parié que “Plus c’est gros, plus c’est intelligent” (Scaling Hypothesis). GPT-3 (175B paramètres) a prouvé qu’ils avaient raison.

2. Appliquer

Comment “parler” à un LLM ? (Prompt Engineering)

Le LLM est un miroir : il vous renvoie ce que vous lui donnez.

  • Zero-Shot : “Traduis ça.” (On espère qu’il sait faire).
  • Few-Shot : “Voici 3 exemples de traduction. Traduis ça.” (On lui montre le pattern).
  • Chain-of-Thought : “Réfléchis étape par étape.” (On force le modèle à décomposer le problème, ce qui augmente la précision).

Les Familles de Modèles

  • GPT-4o (OpenAI) : Le leader polyvalent.
  • Claude 3.5 Sonnet (Anthropic) : Champion du code et de la nuance littéraire.
  • Gemini 1.5 Pro (Google) : Fenêtre de contexte immense (2M tokens).

Le cycle de vie d’un LLM

  1. Pre-Training : Apprendre à parler (Coût : $$10M -$100M). Le modèle lit internet. Il est “intelligent” mais incontrôlable.
  2. Fine-Tuning (SFT) : Apprendre à obéir. On lui donne des exemples “Question -> Bonne Réponse”.
  3. Alignment (RLHF) : Apprendre les valeurs humaines. On le punit s’il est toxique, on le récompense s’il est utile.

3. Aller plus loin

Architecture : Le Mécanisme d’Attention

Le secret du Transformer est l’équation de l’Attention (Scaled Dot-Product Attention). Pour chaque mot (Query QQ), le modèle cherche sa pertinence (Key KK) avec tous les autres mots et en extrait une valeur (Value VV).

Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

C’est ce calcul, répété des milliards de fois en parallèle sur des GPU, qui permet au modèle de comprendre que dans la phrase “La banque a refusé le prêt car elle était risquée”, le mot “elle” fait référence à “banque” (féminin) ou “prêt” (si on change l’adjectif).

Scaling Laws (Lois d’échelle)

Kaplan (2020) et Hoffmann (Chinchilla, 2022) ont formalisé le lien entre performance, paramètres (NN) et données (DD). La “Loi de Chinchilla” stipule que pour un budget de calcul donné, il faut augmenter NN et DD proportionnellement.

  • Ratio idéal : 20 tokens pour 1 paramètre.
  • Pour entraîner Llama-3-8B optimisé, Meta a utilisé 15 Trillions de tokens (bien au-delà du ratio, c’est le “sur-entraînement” pour l’inférence).

Phénomène d’Émergence

C’est le mystère actuel de l’IA. Certaines capacités n’apparaissent qu’à partir d’une certaine taille, de manière abrupte (Phase Transition).

  • À 1B paramètres : Le modèle balbutie.
  • À 10B : Il fait des phrases correctes.
  • À 100B+ : Il sait soudainement résoudre des problèmes arithmétiques ou traduire l’ourdou, sans qu’on lui ait appris spécifiquement.

Exemple de Code : Interroger un LLM via API

from openai import OpenAI
client = OpenAI(api_key="sk-...")
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Tu es un expert en astrophysique."},
{"role": "user", "content": "Explique les trous noirs à un enfant de 5 ans."}
],
temperature=0.7 # Créativité
)
print(response.choices[0].message.content)

Questions Fréquentes

Quelle est la durée de vie d’un LLM ?

Très courte. L’état de l’art change tous les 3 à 6 mois. Un modèle “SOTA” (State of the Art) en janvier est souvent obsolète en décembre.

Est-ce que les LLM plagient ?

Juridiquement complexe. Techniquement, ils ne font pas de “copier-coller”, ils synthétisent des motifs. Mais si le motif est unique (ex: un poème rare), ils peuvent le recracher tel quel (Overfitting).


Notions Liées (Spider Web)

Ressources Externes