Llama (Meta)

Ce que vous saurez dans 3 minutes

Llama (Large Language Model Meta AI) représente un tournant stratégique majeur. Alors que Google et OpenAI gardaient leurs modèles secrets (“Black Box”), Mark Zuckerberg a choisi de distribuer les “plans” (les poids) de son IA.

Résultat : Une standardisation mondiale autour de l’architecture Llama.
Performance : Llama 3 (2024) rivalise avec GPT-4 sur de nombreuses tâches, tout en étant gratuit.

1. Comprendre

Open Source vs Open Weights

C’est une nuance juridique importante. Llama n’est pas strictement “Open Source” (OSI) car Meta impose des restrictions d’usage (licence spécifique, restrictions pour les géants de la Tech > 700M utilisateurs). On parle donc de modèles Open Weights (Poids Ouverts).

Accessible : Vous avez le fichier binaire du modèle.
Contrôlé : Vous n’avez pas le dataset d’entraînement ni le code complet de la recette.

La Dynastie Llama

Modèle	Date	Tailles (Paramètres)	Nouveauté Clé
Llama 1	Fév 2023	7B, 13B, 33B, 65B	La preuve qu’un petit modèle bien entraîné bat un gros modèle (Loi de Chinchilla).
Llama 2	Juil 2023	7B, 13B, 70B	Autorisé pour usage commercial. Introduction du RLHF (Chat).
Llama 3	Avr 2024	8B, 70B, 405B	Vocabulaire étendu (Tokenizer), Performance niveau GPT-4.

2. Appliquer

Comment utiliser Llama ?

Vous n’avez pas besoin d’un supercalculateur. Un Llama-3-8B tourne sur un MacBook Air M1/M2/M3.

Via Ollama (Ligne de commande) : C’est le moyen le plus simple aujourd’hui.

# Installer Ollama (mac/linux/windows)
# Puis lancer :
ollama run llama3.1
>>> Pourquoi le ciel est bleu ?

Via Groq (API Cloud) : Si vous n’avez pas de GPU, Groq propose une inférence Llama ultra-rapide (LPU).

Fine-Tuning de Llama

Llama est le modèle de base le plus utilisé pour créer des modèles spécialisés (Médecine, Code, Jeu de Rôle). Grâce à des techniques comme LoRA (Low-Rank Adaptation), on peut adapter un Llama-8B sur un GPU grand public en quelques heures.

3. Aller plus loin

Architecture Technique

Llama suit l’architecture Transformer “Decoder-only” standard, mais avec des améliorations notables pour la stabilité et la vitesse d’inférence (LLM Ops).

RoPE (Rotary Positional Embeddings) : Une méthode mathématique pour encoder la position des mots (au lieu des Absolute Positional Embeddings classiques). Cela permet au modèle de mieux généraliser sur les contextes longs (extrapolation).
GQA (Grouped Query Attention) : Introduit sur les grands modèles (70B+). Au lieu que chaque tête d’attention ait sa propre clé/valeur (coûteux en mémoire VRAM), on groupe les requêtes. Cela accélère l’inférence sans trop perdre en précision.
SwiGLU : Fonction d’activation utilisée à la place du ReLU standard, offrant une meilleure convergence.

Le Modèle 405B

Avec Llama 3.1 405B, Meta a sorti le premier modèle “Frontier” (niveau GPT-4o) en open weights.

Usage : Il est trop gros pour la plupart des GPU individuels (nécessite ~800 Go de VRAM, soit un cluster de 8x H100).
Utilité : Il sert de Teacher pour distiller des connaissances vers des modèles plus petits (8B/70B) via la Distillation.

Questions Fréquentes

Pourquoi Meta donne-t-il son IA gratuitement ?

Stratégie de la “Terre Brûlée” (Commoditisation). Si le modèle de base devient gratuit et standard (comme Linux), alors la valeur d’OpenAI et Google diminue. Meta profite ensuite de l’écosystème d’outils créés par la communauté autour de Llama.

Llama parle-t-il français ?

Oui, Llama 3 est beaucoup plus multilingue que ses prédécesseurs, bien que son entraînement reste majoritairement anglophone (~90%+). Pour un français parfait, on préfère souvent Mistral.

Notions Liées (Spider Web)

Concurrents : Mistral AI, OpenAI
Techniques : Distillation, Fine-Tuning
Outils : Ollama

Ressources Externes

Site Officiel : llama.meta.com
Papier Llama 3 : The Llama 3 Herd of Models