Mécanisme d'Attention
Le Mécanisme d’Attention est l’innovation de l’article “Attention Is All You Need” (Google, 2017) qui a rendu possible les LLM modernes. C’est la brique fondamentale de l’architecture Transformer qui propulse GPT, Claude, Gemini et tous les modèles de langage actuels.
Pourquoi l’Attention a Tout Changé
Avant 2017, les modèles de langage lisaient le texte séquentiellement, mot après mot, comme un débutant en lecture. Ils oubliaient vite le début de la phrase.
Avec l’Attention, le modèle “voit” toute la phrase d’un coup et comprend instantanément les relations entre tous les mots.
Avant vs Après l’Attention
graph LR
subgraph Avant["Avant 2017 : RNN / LSTM"]
W1[Mot 1] --> H1[État 1]
H1 --> W2[Mot 2]
W2 --> H2[État 2]
H2 --> W3[Mot 3]
W3 --> H3[État 3]
H3 --> W4[...]
end
subgraph Apres["Après 2017 : Attention"]
A1[Mot 1] <--> A2[Mot 2]
A1 <--> A3[Mot 3]
A1 <--> A4[Mot N]
A2 <--> A3
A2 <--> A4
A3 <--> A4
end
style Avant fill:#dc262620,stroke:#dc2626
style Apres fill:#22c55e20,stroke:#22c55e
| Aspect | RNN/LSTM (Avant) | Attention (Après) |
|---|---|---|
| Lecture | Séquentielle | Parallèle |
| Mémoire | Limitée (oubli) | Complète (contexte entier) |
| Distance | Perd les dépendances longues | Capture toute distance |
| Vitesse | Lente (séquence) | Rapide (parallélisable) |
Fonctionnement Technique
Les Trois Vecteurs
Pour chaque mot (token) de la séquence, le modèle calcule trois vecteurs :
| Vecteur | Rôle | Analogie |
|---|---|---|
| Query (Q) | “Que cherche ce mot ?” | La question que pose le mot |
| Key (K) | “Qu’est-ce que ce mot offre ?” | L’étiquette du mot |
| Value (V) | “Quelle information contient ce mot ?” | Le contenu informatif |
L’attention calcule à quel point le Query d’un mot est compatible avec les Keys de tous les autres mots.
Le Calcul
- Dot Product - Multiplier le Query d’un mot par les Keys de tous les autres mots
- Scaling - Diviser par la racine carrée de la dimension pour stabiliser
- Softmax - Convertir en probabilités (somme = 1)
- Weighted Sum - Pondérer les Values par ces probabilités
Formule simplifiée :
Attention(Q, K, V) = softmax(Q × K^T / √d) × VLe résultat est une représentation du mot enrichie par son contexte.
Plusieurs Perspectives
Un seul calcul d’attention capture une seule “dimension” de relation. Les Transformers utilisent plusieurs têtes d’attention en parallèle :
- Tête 1 : Relations syntaxiques (sujet-verbe)
- Tête 2 : Relations sémantiques (synonymie)
- Tête 3 : Relations de coréférence (“il” = “Jean”)
- …
GPT-4 utilise environ 128 têtes d’attention par couche, avec 100+ couches.
Le Coût de l’Attention
L’attention a un inconvénient majeur : sa complexité quadratique.
Pour une séquence de N tokens :
- Chaque token calcule son attention avec les N-1 autres
- Donc N × N calculs = O(N²)
| Longueur | Calculs (approximatif) |
|---|---|
| 1 000 tokens | 1 million |
| 10 000 tokens | 100 millions |
| 100 000 tokens | 10 milliards |
C’est pourquoi les modèles ont une fenêtre de contexte limitée (128k pour GPT-4, 200k pour Claude).
Optimisations Modernes
Plusieurs techniques réduisent le coût de l’attention :
| Technique | Principe | Utilisé par |
|---|---|---|
| FlashAttention | Optimisation mémoire GPU | Tous les modèles récents |
| Sparse Attention | Ne pas calculer toutes les paires | GPT-3, Longformer |
| Linear Attention | Approximation O(N) | Mamba, RWKV |
| Sliding Window | Attention locale + globale | Mistral |
Impact sur l’IA Moderne
L’attention a permis :
- Les LLM - GPT, Claude, Gemini sont tous basés sur l’attention
- La traduction - Google Translate a fait un bond qualitatif
- La génération d’images - Les diffusion models utilisent l’attention
- L’audio - Whisper (transcription) s’appuie sur l’attention
À retenir
- Le mécanisme d’attention permet au modèle de contextualiser chaque mot par rapport à tous les autres.
- Il remplace les RNN/LSTM depuis 2017 grâce à l’article “Attention Is All You Need”.
- Le calcul utilise trois vecteurs : Query, Key, Value.
- Le coût est quadratique (O(N²)), ce qui limite la fenêtre de contexte.
- Des optimisations comme FlashAttention réduisent ce coût.
- C’est la brique fondamentale de tous les LLM modernes.
Notions liées
- Transformer - L’architecture complète
- LLM - Les modèles qui utilisent l’attention
- Deep Learning - Le domaine général
- Token - L’unité de texte traitée
- Context Window - La limite imposée par le coût de l’attention