Mécanisme d'Attention

Le Mécanisme d’Attention est l’innovation de l’article “Attention Is All You Need” (Google, 2017) qui a rendu possible les LLM modernes. C’est la brique fondamentale de l’architecture Transformer qui propulse GPT, Claude, Gemini et tous les modèles de langage actuels.

Pourquoi l’Attention a Tout Changé

Avant 2017, les modèles de langage lisaient le texte séquentiellement, mot après mot, comme un débutant en lecture. Ils oubliaient vite le début de la phrase.

Avec l’Attention, le modèle “voit” toute la phrase d’un coup et comprend instantanément les relations entre tous les mots.

Avant vs Après l’Attention

graph LR
    subgraph Avant["Avant 2017 : RNN / LSTM"]
        W1[Mot 1] --> H1[État 1]
        H1 --> W2[Mot 2]
        W2 --> H2[État 2]
        H2 --> W3[Mot 3]
        W3 --> H3[État 3]
        H3 --> W4[...]
    end
    
    subgraph Apres["Après 2017 : Attention"]
        A1[Mot 1] <--> A2[Mot 2]
        A1 <--> A3[Mot 3]
        A1 <--> A4[Mot N]
        A2 <--> A3
        A2 <--> A4
        A3 <--> A4
    end
    
    style Avant fill:#dc262620,stroke:#dc2626
    style Apres fill:#22c55e20,stroke:#22c55e

Aspect	RNN/LSTM (Avant)	Attention (Après)
Lecture	Séquentielle	Parallèle
Mémoire	Limitée (oubli)	Complète (contexte entier)
Distance	Perd les dépendances longues	Capture toute distance
Vitesse	Lente (séquence)	Rapide (parallélisable)

Fonctionnement Technique

Les Trois Vecteurs

Pour chaque mot (token) de la séquence, le modèle calcule trois vecteurs :

Vecteur	Rôle	Analogie
Query (Q)	“Que cherche ce mot ?”	La question que pose le mot
Key (K)	“Qu’est-ce que ce mot offre ?”	L’étiquette du mot
Value (V)	“Quelle information contient ce mot ?”	Le contenu informatif

L’attention calcule à quel point le Query d’un mot est compatible avec les Keys de tous les autres mots.

Le Calcul

Dot Product - Multiplier le Query d’un mot par les Keys de tous les autres mots
Scaling - Diviser par la racine carrée de la dimension pour stabiliser
Softmax - Convertir en probabilités (somme = 1)
Weighted Sum - Pondérer les Values par ces probabilités

Formule simplifiée :

Attention(Q, K, V) = softmax(Q × K^T / √d) × V

Le résultat est une représentation du mot enrichie par son contexte.

Le Coût de l’Attention

L’attention a un inconvénient majeur : sa complexité quadratique.

Pour une séquence de N tokens :

Chaque token calcule son attention avec les N-1 autres
Donc N × N calculs = O(N²)

Longueur	Calculs (approximatif)
1 000 tokens	1 million
10 000 tokens	100 millions
100 000 tokens	10 milliards

C’est pourquoi les modèles ont une fenêtre de contexte limitée (128k pour GPT-4, 200k pour Claude).

Optimisations Modernes

Plusieurs techniques réduisent le coût de l’attention :

Technique	Principe	Utilisé par
FlashAttention	Optimisation mémoire GPU	Tous les modèles récents
Sparse Attention	Ne pas calculer toutes les paires	GPT-3, Longformer
Linear Attention	Approximation O(N)	Mamba, RWKV
Sliding Window	Attention locale + globale	Mistral

Impact sur l’IA Moderne

L’attention a permis :

Les LLM - GPT, Claude, Gemini sont tous basés sur l’attention
La traduction - Google Translate a fait un bond qualitatif
La génération d’images - Les diffusion models utilisent l’attention
L’audio - Whisper (transcription) s’appuie sur l’attention

À retenir

Le mécanisme d’attention permet au modèle de contextualiser chaque mot par rapport à tous les autres.
Il remplace les RNN/LSTM depuis 2017 grâce à l’article “Attention Is All You Need”.
Le calcul utilise trois vecteurs : Query, Key, Value.
Le coût est quadratique (O(N²)), ce qui limite la fenêtre de contexte.
Des optimisations comme FlashAttention réduisent ce coût.
C’est la brique fondamentale de tous les LLM modernes.

Notions liées

Transformer - L’architecture complète
LLM - Les modèles qui utilisent l’attention
Deep Learning - Le domaine général
Token - L’unité de texte traitée
Context Window - La limite imposée par le coût de l’attention