Aller au contenu

Mécanisme d'Attention

Le Mécanisme d’Attention est l’innovation de l’article “Attention Is All You Need” (Google, 2017) qui a rendu possible les LLM modernes. C’est la brique fondamentale de l’architecture Transformer qui propulse GPT, Claude, Gemini et tous les modèles de langage actuels.

Pourquoi l’Attention a Tout Changé

Avant 2017, les modèles de langage lisaient le texte séquentiellement, mot après mot, comme un débutant en lecture. Ils oubliaient vite le début de la phrase.

Avec l’Attention, le modèle “voit” toute la phrase d’un coup et comprend instantanément les relations entre tous les mots.

Avant vs Après l’Attention

graph LR
    subgraph Avant["Avant 2017 : RNN / LSTM"]
        W1[Mot 1] --> H1[État 1]
        H1 --> W2[Mot 2]
        W2 --> H2[État 2]
        H2 --> W3[Mot 3]
        W3 --> H3[État 3]
        H3 --> W4[...]
    end
    
    subgraph Apres["Après 2017 : Attention"]
        A1[Mot 1] <--> A2[Mot 2]
        A1 <--> A3[Mot 3]
        A1 <--> A4[Mot N]
        A2 <--> A3
        A2 <--> A4
        A3 <--> A4
    end
    
    style Avant fill:#dc262620,stroke:#dc2626
    style Apres fill:#22c55e20,stroke:#22c55e
AspectRNN/LSTM (Avant)Attention (Après)
LectureSéquentielleParallèle
MémoireLimitée (oubli)Complète (contexte entier)
DistancePerd les dépendances longuesCapture toute distance
VitesseLente (séquence)Rapide (parallélisable)

Fonctionnement Technique

Les Trois Vecteurs

Pour chaque mot (token) de la séquence, le modèle calcule trois vecteurs :

VecteurRôleAnalogie
Query (Q)“Que cherche ce mot ?”La question que pose le mot
Key (K)“Qu’est-ce que ce mot offre ?”L’étiquette du mot
Value (V)“Quelle information contient ce mot ?”Le contenu informatif

L’attention calcule à quel point le Query d’un mot est compatible avec les Keys de tous les autres mots.

Le Coût de l’Attention

L’attention a un inconvénient majeur : sa complexité quadratique.

Pour une séquence de N tokens :

  • Chaque token calcule son attention avec les N-1 autres
  • Donc N × N calculs = O(N²)
LongueurCalculs (approximatif)
1 000 tokens1 million
10 000 tokens100 millions
100 000 tokens10 milliards

C’est pourquoi les modèles ont une fenêtre de contexte limitée (128k pour GPT-4, 200k pour Claude).

Optimisations Modernes

Plusieurs techniques réduisent le coût de l’attention :

TechniquePrincipeUtilisé par
FlashAttentionOptimisation mémoire GPUTous les modèles récents
Sparse AttentionNe pas calculer toutes les pairesGPT-3, Longformer
Linear AttentionApproximation O(N)Mamba, RWKV
Sliding WindowAttention locale + globaleMistral

Impact sur l’IA Moderne

L’attention a permis :

  1. Les LLM - GPT, Claude, Gemini sont tous basés sur l’attention
  2. La traduction - Google Translate a fait un bond qualitatif
  3. La génération d’images - Les diffusion models utilisent l’attention
  4. L’audio - Whisper (transcription) s’appuie sur l’attention

À retenir

  • Le mécanisme d’attention permet au modèle de contextualiser chaque mot par rapport à tous les autres.
  • Il remplace les RNN/LSTM depuis 2017 grâce à l’article “Attention Is All You Need”.
  • Le calcul utilise trois vecteurs : Query, Key, Value.
  • Le coût est quadratique (O(N²)), ce qui limite la fenêtre de contexte.
  • Des optimisations comme FlashAttention réduisent ce coût.
  • C’est la brique fondamentale de tous les LLM modernes.

Notions liées