Aller au contenu

Llama (Meta)

Ce que vous saurez dans 3 minutes

Llama (Large Language Model Meta AI) représente un tournant stratégique majeur. Alors que Google et OpenAI gardaient leurs modèles secrets (“Black Box”), Mark Zuckerberg a choisi de distribuer les “plans” (les poids) de son IA.

  • Résultat : Une standardisation mondiale autour de l’architecture Llama.
  • Performance : Llama 3 (2024) rivalise avec GPT-4 sur de nombreuses tâches, tout en étant gratuit.

1. Comprendre

Open Source vs Open Weights

C’est une nuance juridique importante. Llama n’est pas strictement “Open Source” (OSI) car Meta impose des restrictions d’usage (licence spécifique, restrictions pour les géants de la Tech > 700M utilisateurs). On parle donc de modèles Open Weights (Poids Ouverts).

  • Accessible : Vous avez le fichier binaire du modèle.
  • Contrôlé : Vous n’avez pas le dataset d’entraînement ni le code complet de la recette.

La Dynastie Llama

ModèleDateTailles (Paramètres)Nouveauté Clé
Llama 1Fév 20237B, 13B, 33B, 65BLa preuve qu’un petit modèle bien entraîné bat un gros modèle (Loi de Chinchilla).
Llama 2Juil 20237B, 13B, 70BAutorisé pour usage commercial. Introduction du RLHF (Chat).
Llama 3Avr 20248B, 70B, 405BVocabulaire étendu (Tokenizer), Performance niveau GPT-4.

2. Appliquer

Comment utiliser Llama ?

Vous n’avez pas besoin d’un supercalculateur. Un Llama-3-8B tourne sur un MacBook Air M1/M2/M3.

Via Ollama (Ligne de commande) : C’est le moyen le plus simple aujourd’hui.

Fenêtre de terminal
# Installer Ollama (mac/linux/windows)
# Puis lancer :
ollama run llama3.1
>>> Pourquoi le ciel est bleu ?

Via Groq (API Cloud) : Si vous n’avez pas de GPU, Groq propose une inférence Llama ultra-rapide (LPU).

Fine-Tuning de Llama

Llama est le modèle de base le plus utilisé pour créer des modèles spécialisés (Médecine, Code, Jeu de Rôle). Grâce à des techniques comme LoRA (Low-Rank Adaptation), on peut adapter un Llama-8B sur un GPU grand public en quelques heures.


3. Aller plus loin

Architecture Technique

Llama suit l’architecture Transformer “Decoder-only” standard, mais avec des améliorations notables pour la stabilité et la vitesse d’inférence (LLM Ops).

  1. RoPE (Rotary Positional Embeddings) : Une méthode mathématique pour encoder la position des mots (au lieu des Absolute Positional Embeddings classiques). Cela permet au modèle de mieux généraliser sur les contextes longs (extrapolation).

  2. GQA (Grouped Query Attention) : Introduit sur les grands modèles (70B+). Au lieu que chaque tête d’attention ait sa propre clé/valeur (coûteux en mémoire VRAM), on groupe les requêtes. Cela accélère l’inférence sans trop perdre en précision.

  3. SwiGLU : Fonction d’activation utilisée à la place du ReLU standard, offrant une meilleure convergence.

Le Modèle 405B

Avec Llama 3.1 405B, Meta a sorti le premier modèle “Frontier” (niveau GPT-4o) en open weights.

  • Usage : Il est trop gros pour la plupart des GPU individuels (nécessite ~800 Go de VRAM, soit un cluster de 8x H100).
  • Utilité : Il sert de Teacher pour distiller des connaissances vers des modèles plus petits (8B/70B) via la Distillation.

Questions Fréquentes

Pourquoi Meta donne-t-il son IA gratuitement ?

Stratégie de la “Terre Brûlée” (Commoditisation). Si le modèle de base devient gratuit et standard (comme Linux), alors la valeur d’OpenAI et Google diminue. Meta profite ensuite de l’écosystème d’outils créés par la communauté autour de Llama.

Llama parle-t-il français ?

Oui, Llama 3 est beaucoup plus multilingue que ses prédécesseurs, bien que son entraînement reste majoritairement anglophone (~90%+). Pour un français parfait, on préfère souvent Mistral.


Notions Liées (Spider Web)

Ressources Externes