Falcon et Mamba

Ce que vous saurez dans 3 minutes

Pourquoi l’architecture Transformer a un problème de “mémoire” sur les longs textes.
Comment les State Space Models (SSM) et Mamba résolvent ce problème avec une sélectivité intelligente.
Comment utiliser un modèle Mamba via la librairie transformers d’Hugging Face.

1. Comprendre

Pendant des années, le Transformer (l’architecture derrière GPT) a régné en maître. Mais il a un talon d’Achille : le Mécanisme d’Attention. Pour deviner le mot suivant, un Transformer regarde tous les mots précédents. Si vous avez 100 mots, il fait $100^2$ connexions. Si vous avez 1 million de mots, il explose.

La Rupture SSM (State Space Models)

Les modèles Mamba (basés sur les SSM) fonctionnent différemment. Ils lisent le texte comme un humain : ils le parcourent mot à mot et mettent à jour un résumé mental (l’état caché) au fur et à mesure. Ils n’ont pas besoin de relire tout le livre pour comprendre la dernière phrase.

Visualisation de la Complexité

graph TD
    subgraph "Transformer (Attention Globale)"
    A1[Mot 1] <--> A2[Mot 2]
    A1 <--> A3[Mot 3]
    A2 <--> A3
    A3 <--> A4[Mot 4]
    style A1 fill:#ffcccc
    style A4 fill:#ffcccc
    end

    subgraph "Mamba (State Space Model)"
    B1[Mot 1] --> S1{Etat A}
    S1 --> B2[Mot 2]
    B2 --> S2{Etat B}
    S2 --> B3[Mot 3]
    B3 --> S3{Etat C}
    style S3 fill:#ccffcc
    end

2. Appliquer

Utilisation avec Hugging Face

Falcon Mamba (7B) est le premier modèle Mamba à purement rivaliser avec les Transformers de taille équivalente. Voici comment l’utiliser.

Inférence Simple
Architecture MambaBlock

# ⚠️ Nécessite : pip install transformers torch mamba-ssm
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "tiiuae/falcon-mamba-7b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16).to("cuda")

input_text = "Explique l'avantage des SSM :"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

output = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Un aperçu simplifié du cœur de Mamba en pseudo-code PyTorch :

class MambaBlock(nn.Module):
    def forward(self, x):
        # 1. Projection (Expand)
        x_proj = self.in_proj(x)

        # 2. Convolution (Short-term memory)
        x_conv = self.conv1d(x_proj)

        # 3. SSM (Long-term memory sélectionnée)
        # C'est ici que la magie opère : Sélectivité
        delta, A, B, C = self.ssm_parameters(x_conv)
        y_ssm = selective_scan(x_conv, delta, A, B, C)

        # 4. Output Projection
        return self.out_proj(y_ssm * self.silu(x_gate))

Comparaison Technique

Caractéristique	Transformer (Llama 3)	Mamba (Falcon Mamba)
Mécanisme	Attention ( $QK^T$ )	Selective SSM
Complexité Inf.	$O(KV)$ (avec Cache)	$O(1)$ (Etat Constant)
Context Length	Limité par la VRAM	Théoriquement infini
Performance	État de l’art (SOTA)	SOTA Compétitif
Vitesse Génération	Décroît avec la longueur	Constante (Ultra Rapide)

3. Aller plus loin

Le Secret : La Sélectivité

Les anciens RNN (Recurrent Neural Networks) avaient aussi une complexité linéaire mais oubliaient vite. Mamba introduit un mécanisme de Sélectivité. Le modèle peut “décider” à chaque étape ce qu’il garde en mémoire et ce qu’il jette.

h_t = (1 - \Delta_t A) h_{t-1} + \Delta_t B x_t

Où Delta_t est la “porte” qui décide de l’importance de l’information actuelle x_t par rapport à l’historique h_{t-1}. C’est cette capacité à filtrer dynamiquement qui permet à Mamba de rivaliser avec l’Attention.

Répertoiremamba_ssm/
- Répertoireops/
  - selective_scan_interface.py # Le coeur Cuda optimisé
- Répertoiremodules/
  - mamba_simple.py # L’implémentation PyTorch

Prospective : L’Architecture Hybride ?

On commence à voir émerger des modèles hybrides (Jamba de AI21 Labs) qui mélangent des couches Mamba (pour la mémoire longue) et des couches Transformer (pour la capacité de raisonnement complexe). C’est probablement le futur de l’architecture des LLM.

Questions Fréquentes

Mamba va-t-il tuer les Transformers ?

Pas “tuer”, mais compléter. Pour des tâches nécessitant un contexte gigantesque (analyser un génome entier, résumer 50 livres), Mamba est supérieur. Pour le raisonnement pur sur texte court, le Transformer reste roi.

Pourquoi n’utilise-t-on pas Mamba partout ?

L’écosystème est massivement optimisé pour les Transformers (GPU, librairies). Mamba nécessite des noyaux CUDA spécifiques (Triton) qui sont plus complexes à faire tourner partout. L’inertie technologique joue pour les Transformers.

Notions Liées (Spider Web)

Architecture : Transformer
Composant : Mecanisme d’Attention
Modèle : Modele de Fondation

Ressources Externes

Papier Original : Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Hugging Face : Falcon Mamba Collection