LLM (Grand Modèle de Langage)
Ce que vous saurez dans 3 minutes
Le LLM (Large Language Model) est à l’IA ce que le moteur à explosion fut à l’automobile : la pièce maîtresse d’une révolution.
- Pour les Décideurs : Comprendre que la “taille” (paramètres) et les “données” sont les leviers de la performance (Scaling Laws).
- Pour les Ingénieurs : Saisir que le LLM est un “prédicteur de tokens” probabiliste, pas une base de connaissances factuelle.
- Pour le Grand Public : Démystifier la “magie” : c’est des maths, pas une conscience.
1. Comprendre
Imaginez une bibliothèque contenant tous les livres du monde. Un LLM est un bibliothécaire qui a lu tous ces livres, mais qui a une mémoire un peu spéciale : il ne retient pas les phrases par cœur, il retient les probabilités qu’un mot suive un autre. Si vous dites “Le chat est sur le…”, le modèle ne “sait” pas physiquement ce qu’est un toit, mais il “sait” statistiquement que “toit” (35%), “canapé” (20%) ou “tapis” (15%) sont les suites logiques, alors que “fraise” (0.0001%) est improbable.
Définition
Contexte & Enjeux
Avant 2017, l’IA traitait le texte mot par mot (RNN, LSTM), “oubliant” le début d’un paragraphe arrivé à la fin.
- Le déclencheur : Le papier “Attention Is All You Need” (Google, 2017) invente le Transformer, capable de paralléliser la lecture et de gérer le contexte global.
- L’explosion : OpenAI a parié que “Plus c’est gros, plus c’est intelligent” (Scaling Hypothesis). GPT-3 (175B paramètres) a prouvé qu’ils avaient raison.
2. Appliquer
Comment “parler” à un LLM ? (Prompt Engineering)
Le LLM est un miroir : il vous renvoie ce que vous lui donnez.
- Zero-Shot : “Traduis ça.” (On espère qu’il sait faire).
- Few-Shot : “Voici 3 exemples de traduction. Traduis ça.” (On lui montre le pattern).
- Chain-of-Thought : “Réfléchis étape par étape.” (On force le modèle à décomposer le problème, ce qui augmente la précision).
Les Familles de Modèles
- GPT-4o (OpenAI) : Le leader polyvalent.
- Claude 3.5 Sonnet (Anthropic) : Champion du code et de la nuance littéraire.
- Gemini 1.5 Pro (Google) : Fenêtre de contexte immense (2M tokens).
- Llama 3.1 (Meta) : Le standard de facto pour l’auto-hébergement.
- Mistral Large (Mistral) : L’excellence européenne.
- Qwen 2.5 (Alibaba) : Très fort en math/code.
Le cycle de vie d’un LLM
- Pre-Training : Apprendre à parler (Coût : $$10M -$100M). Le modèle lit internet. Il est “intelligent” mais incontrôlable.
- Fine-Tuning (SFT) : Apprendre à obéir. On lui donne des exemples “Question -> Bonne Réponse”.
- Alignment (RLHF) : Apprendre les valeurs humaines. On le punit s’il est toxique, on le récompense s’il est utile.
3. Aller plus loin
Architecture : Le Mécanisme d’Attention
Le secret du Transformer est l’équation de l’Attention (Scaled Dot-Product Attention). Pour chaque mot (Query ), le modèle cherche sa pertinence (Key ) avec tous les autres mots et en extrait une valeur (Value ).
Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})VC’est ce calcul, répété des milliards de fois en parallèle sur des GPU, qui permet au modèle de comprendre que dans la phrase “La banque a refusé le prêt car elle était risquée”, le mot “elle” fait référence à “banque” (féminin) ou “prêt” (si on change l’adjectif).
Scaling Laws (Lois d’échelle)
Kaplan (2020) et Hoffmann (Chinchilla, 2022) ont formalisé le lien entre performance, paramètres () et données (). La “Loi de Chinchilla” stipule que pour un budget de calcul donné, il faut augmenter et proportionnellement.
- Ratio idéal : 20 tokens pour 1 paramètre.
- Pour entraîner Llama-3-8B optimisé, Meta a utilisé 15 Trillions de tokens (bien au-delà du ratio, c’est le “sur-entraînement” pour l’inférence).
Phénomène d’Émergence
C’est le mystère actuel de l’IA. Certaines capacités n’apparaissent qu’à partir d’une certaine taille, de manière abrupte (Phase Transition).
- À 1B paramètres : Le modèle balbutie.
- À 10B : Il fait des phrases correctes.
- À 100B+ : Il sait soudainement résoudre des problèmes arithmétiques ou traduire l’ourdou, sans qu’on lui ait appris spécifiquement.
Exemple de Code : Interroger un LLM via API
from openai import OpenAI
client = OpenAI(api_key="sk-...")
response = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "Tu es un expert en astrophysique."}, {"role": "user", "content": "Explique les trous noirs à un enfant de 5 ans."} ], temperature=0.7 # Créativité)
print(response.choices[0].message.content)Questions Fréquentes
Quelle est la durée de vie d’un LLM ?
Très courte. L’état de l’art change tous les 3 à 6 mois. Un modèle “SOTA” (State of the Art) en janvier est souvent obsolète en décembre.
Est-ce que les LLM plagient ?
Juridiquement complexe. Techniquement, ils ne font pas de “copier-coller”, ils synthétisent des motifs. Mais si le motif est unique (ex: un poème rare), ils peuvent le recracher tel quel (Overfitting).
Notions Liées (Spider Web)
- Architecture : Transformer, Token
- Concepts Tech : Température, Hallucination
- Écosystème : OpenAI, Hugging Face
Ressources Externes
- Papier Fondateur : Attention Is All You Need (2017)
- Cours : Andrej Karpathy - Intro to LLMs (YouTube)