Aller au contenu

BLOOM

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) est le plus grand modèle de langage véritablement ouvert au monde. Créé par une collaboration internationale de 1000 chercheurs, il représente l’antithèse des modèles propriétaires et un symbole de la science ouverte.

Le CERN de l’IA

BLOOM est né d’un constat : les modèles les plus puissants (GPT-3, PaLM) étaient développés par des entreprises privées, fermés, et entraînés principalement sur l’anglais. Un groupe de chercheurs a décidé de créer une alternative radicalement différente.

Le Projet BigScience

graph TD
    subgraph BigScience["Projet BigScience (2021-2022)"]
        HF[Hugging Face<br/>Coordination]
        CNRS[CNRS/GENCI<br/>Supercalculateur]
        R[1000+ Chercheurs<br/>70 pays]
    end
    
    subgraph Resultat["Résultat"]
        BLOOM[BLOOM<br/>176B paramètres]
        DATA[ROOTS<br/>1.6 To de données]
        LICENSE[OpenRAIL<br/>Licence éthique]
    end
    
    HF --> BLOOM
    CNRS --> BLOOM
    R --> BLOOM
    BLOOM --> DATA
    BLOOM --> LICENSE
    
    style BigScience fill:#667eea20,stroke:#667eea
    style BLOOM fill:#22c55e,stroke:#333,color:#fff

1000 Cerveaux, Un Modèle

BigScience a réuni :

AspectDétail
Chercheurs1000+ bénévoles de 70 pays
Durée18 mois (2021-2022)
CoordinationHugging Face (France/USA)
InfrastructureJean Zay (CNRS/GENCI, France)
Coût calcul~5 millions €

Les chercheurs se sont organisés en groupes de travail thématiques : éthique, données, évaluation, modélisation.

Caractéristiques Techniques

SpécificationValeur
Paramètres176 milliards
Couches70
Têtes d’attention112
Dimension cachée14 336
Contexte2 048 tokens
Vocabulaire250 680 tokens

Versions Disponibles

BLOOM existe en plusieurs tailles pour différents usages :

ModèleParamètresRAM requise
BLOOM-560M560M2 Go
BLOOM-1B71.7B8 Go
BLOOM-3B3B12 Go
BLOOM-7B17.1B28 Go
BLOOM176B352 Go

La Licence OpenRAIL

BLOOM introduit une innovation juridique majeure : la licence OpenRAIL (Responsible AI License).

Cette approche “open but responsible” est devenue un modèle pour d’autres projets (Stable Diffusion, LLaMA 2).

Impact et Héritage

Pour la Recherche

  • Reproductibilité : N’importe qui peut reproduire les expériences
  • Benchmark : Référence pour comparer les modèles multilingues
  • Formation : Outil pédagogique pour les universités

Pour les Langues Minoritaires

BLOOM parle des langues souvent ignorées par les modèles américains :

  • Swahili (100M locuteurs)
  • Yoruba (50M locuteurs)
  • Catalan (10M locuteurs)
  • Basque (750K locuteurs)

Pour la Souveraineté

BLOOM prouve que l’Europe peut :

  • Développer des LLM de classe mondiale
  • Le faire de manière éthique et transparente
  • Héberger l’infrastructure sur son territoire

Limites

BLOOM n’est pas parfait :

  • Taille du contexte : 2K tokens (vs 128K pour GPT-4)
  • Performances : Légèrement inférieur à GPT-3 sur l’anglais
  • Instruction-tuning : Moins conversationnel que ChatGPT
  • Maintenance : Projet de recherche, pas un produit commercial

Descendants

BLOOM a inspiré plusieurs projets :

  • BLOOMZ : Version fine-tunée pour suivre des instructions
  • mT0 : Version multilingue de T0 (Hugging Face)
  • Mistral : Startup française qui a repris le flambeau

À retenir

  • BLOOM est le plus grand LLM véritablement ouvert du monde (176B paramètres).
  • Il est le fruit d’une collaboration mondiale de 1000 chercheurs.
  • Il parle 46 langues et a été entraîné sur le supercalculateur français Jean Zay.
  • La licence OpenRAIL combine ouverture et responsabilité éthique.
  • Il symbolise la souveraineté numérique européenne et la science ouverte.

Notions liées