BLOOM
BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) est le plus grand modèle de langage véritablement ouvert au monde. Créé par une collaboration internationale de 1000 chercheurs, il représente l’antithèse des modèles propriétaires et un symbole de la science ouverte.
Le CERN de l’IA
BLOOM est né d’un constat : les modèles les plus puissants (GPT-3, PaLM) étaient développés par des entreprises privées, fermés, et entraînés principalement sur l’anglais. Un groupe de chercheurs a décidé de créer une alternative radicalement différente.
Le Projet BigScience
graph TD
subgraph BigScience["Projet BigScience (2021-2022)"]
HF[Hugging Face<br/>Coordination]
CNRS[CNRS/GENCI<br/>Supercalculateur]
R[1000+ Chercheurs<br/>70 pays]
end
subgraph Resultat["Résultat"]
BLOOM[BLOOM<br/>176B paramètres]
DATA[ROOTS<br/>1.6 To de données]
LICENSE[OpenRAIL<br/>Licence éthique]
end
HF --> BLOOM
CNRS --> BLOOM
R --> BLOOM
BLOOM --> DATA
BLOOM --> LICENSE
style BigScience fill:#667eea20,stroke:#667eea
style BLOOM fill:#22c55e,stroke:#333,color:#fff
1000 Cerveaux, Un Modèle
BigScience a réuni :
| Aspect | Détail |
|---|---|
| Chercheurs | 1000+ bénévoles de 70 pays |
| Durée | 18 mois (2021-2022) |
| Coordination | Hugging Face (France/USA) |
| Infrastructure | Jean Zay (CNRS/GENCI, France) |
| Coût calcul | ~5 millions € |
Les chercheurs se sont organisés en groupes de travail thématiques : éthique, données, évaluation, modélisation.
Le Supercalculateur Français
L’entraînement de BLOOM a eu lieu sur Jean Zay, le supercalculateur du CNRS situé à Saclay :
- 384 GPU A100 (80 Go chacun)
- 3.5 mois d’entraînement continu
- 1.6 To de données (ROOTS dataset)
- Empreinte carbone : ~50 tonnes CO2 (compensée)
Transparence Totale
Le dataset ROOTS est entièrement documenté et accessible :
- 46 langues naturelles (dont français, arabe, swahili, hindi, catalan)
- 13 langages de programmation
- 1.6 téraoctets de texte
- Sources diverses : Wikipedia, livres, code, forums
- Nettoyage éthique : Suppression des contenus toxiques, respect du droit d’auteur
Contrairement à GPT-3, on sait exactement sur quoi BLOOM a été entraîné.
Caractéristiques Techniques
| Spécification | Valeur |
|---|---|
| Paramètres | 176 milliards |
| Couches | 70 |
| Têtes d’attention | 112 |
| Dimension cachée | 14 336 |
| Contexte | 2 048 tokens |
| Vocabulaire | 250 680 tokens |
Versions Disponibles
BLOOM existe en plusieurs tailles pour différents usages :
| Modèle | Paramètres | RAM requise |
|---|---|---|
| BLOOM-560M | 560M | 2 Go |
| BLOOM-1B7 | 1.7B | 8 Go |
| BLOOM-3B | 3B | 12 Go |
| BLOOM-7B1 | 7.1B | 28 Go |
| BLOOM | 176B | 352 Go |
La Licence OpenRAIL
BLOOM introduit une innovation juridique majeure : la licence OpenRAIL (Responsible AI License).
Cette approche “open but responsible” est devenue un modèle pour d’autres projets (Stable Diffusion, LLaMA 2).
Impact et Héritage
Pour la Recherche
- Reproductibilité : N’importe qui peut reproduire les expériences
- Benchmark : Référence pour comparer les modèles multilingues
- Formation : Outil pédagogique pour les universités
Pour les Langues Minoritaires
BLOOM parle des langues souvent ignorées par les modèles américains :
- Swahili (100M locuteurs)
- Yoruba (50M locuteurs)
- Catalan (10M locuteurs)
- Basque (750K locuteurs)
Pour la Souveraineté
BLOOM prouve que l’Europe peut :
- Développer des LLM de classe mondiale
- Le faire de manière éthique et transparente
- Héberger l’infrastructure sur son territoire
Limites
BLOOM n’est pas parfait :
- Taille du contexte : 2K tokens (vs 128K pour GPT-4)
- Performances : Légèrement inférieur à GPT-3 sur l’anglais
- Instruction-tuning : Moins conversationnel que ChatGPT
- Maintenance : Projet de recherche, pas un produit commercial
Descendants
BLOOM a inspiré plusieurs projets :
- BLOOMZ : Version fine-tunée pour suivre des instructions
- mT0 : Version multilingue de T0 (Hugging Face)
- Mistral : Startup française qui a repris le flambeau
À retenir
- BLOOM est le plus grand LLM véritablement ouvert du monde (176B paramètres).
- Il est le fruit d’une collaboration mondiale de 1000 chercheurs.
- Il parle 46 langues et a été entraîné sur le supercalculateur français Jean Zay.
- La licence OpenRAIL combine ouverture et responsabilité éthique.
- Il symbolise la souveraineté numérique européenne et la science ouverte.
Notions liées
- Hugging Face - La plateforme coordinatrice
- LLM - La catégorie de modèles
- Open Source vs Closed - Le débat ouvert/fermé
- Paramètres - Ce que signifient 176 milliards
- Transformer - L’architecture sous-jacente