Le 'Go' du Pré-entraînement : Pourquoi l'IA part en retraite 3 mois ?

Imaginez que vous devez lire l’intégralité des livres, articles et sites web disponibles dans le monde pour apprendre non seulement la grammaire, mais aussi la logique, le code informatique et les faits historiques. C’est titanesque.

Maintenant, imaginez que vous êtes un ingénieur chez OpenAI, Google ou Mistral. Vous avez passé des semaines à préparer ces données et à configurer une architecture complexe. Vous êtes devant votre clavier. Vous tapez une commande. Vous appuyez sur Entrée.

C’est le “Go”.

À cet instant précis, vous venez d’engager des dizaines de millions de dollars de budget électricité et matériel. Et vous ne verrez le résultat final que dans 3 à 4 mois. C’est ce qu’on appelle la phase de Pré-entraînement (Pre-training). C’est le moment où l’IA passe de “tableau Excel vide” à “cerveau numérique”.

Le Problème : Pourquoi “Rendez-vous dans 3 mois” ?

Pourquoi ne peut-on pas entraîner une IA puissante en un week-end ? Le problème réside dans l’équation brutale entre la quantité de données et la complexité des calculs.

L’échelle du défi

Pour créer un modèle comme GPT-4 ou Llama 3, il ne suffit pas de lui montrer quelques phrases. Il faut lui faire deviner le mot suivant sur des milliers de milliards de “tokens” (bouts de mots).

Volume de données : Imaginez une pile de livres allant de la Terre à la Lune. Le modèle doit tout lire, plusieurs fois.
Intensité de calcul : Chaque fois que le modèle lit une phrase, il ajuste des milliards de petits paramètres (poids synaptiques) pour s’améliorer.
La contrainte physique : Même avec 10 000 des puces les plus rapides du monde (GPU H100), les lois de la physique imposent une limite de vitesse. Les données doivent circuler, les calculs doivent se faire, et la chaleur doit être évacuée.

Comment ça Marche : La cuisson lente

Le pré-entraînement est souvent comparé à une cuisson ou à une compression de connaissances. Voici ce qui se passe pendant ces longs mois de silence radio.

La boucle d’apprentissage

Le processus est répétitif et automatisé. Des milliers de serveurs tournent en parallèle pour exécuter cette boucle :

Prédiction Le modèle reçoit un début de phrase : “Le chat mange la…”. Il tente de deviner la suite avec ses connaissances actuelles (au début, c’est du hasard total). Il propose “table”.
Comparaison (Calcul de la Loss) L’algorithme regarde la vraie réponse dans les données d’entraînement : “souris”. Il mesure l’écart entre sa réponse (“table”) et la vérité (“souris”). Cet écart s’appelle la Loss (la perte).
Rétropropagation (Backpropagation) C’est la magie mathématique. L’algorithme remonte le courant pour identifier quels paramètres ont contribué à cette erreur.
Mise à jour (Update) Il modifie très légèrement les milliards de paramètres pour que, la prochaine fois, la probabilité de dire “souris” soit un peu plus élevée.

Visualisation du flux

graph TD
    A[Données Brutes du Web] -->|Nettoyage| B(Dataset Massif)
    B --> C{Le Grand 'GO'}
    C -->|Début du calcul| D[Cluster de 10 000 GPUs]
    D --> E{Boucle d'Entraînement}
    E -->|Mois 1: Apprend la grammaire| F(Modèle Balbutiant)
    E -->|Mois 2: Apprend les faits/logique| G(Modèle Compétent)
    E -->|Mois 3: Raffinage| H(Modèle Convergé)
    H --> I[Foundation Model Brut]
    
    style C fill:#f96,stroke:#333,stroke-width:4px
    style I fill:#9f6,stroke:#333,stroke-width:2px

Pendant ces 3 mois, les ingénieurs ne dorment pas. Ils surveillent une courbe sur un écran : la Loss Curve. Si elle descend, le modèle apprend. Si elle remonte ou stagne (un “plateau”), c’est la panique : le modèle n’apprend plus, il faut intervenir, ajuster le taux d’apprentissage (learning rate) ou revenir à une sauvegarde précédente (checkpoint).

Applications Concrètes : Ce qu’on obtient à la fin

Il est crucial de comprendre que ce qui sort après 3 mois n’est pas encore ChatGPT. C’est un “Foundation Model” (Modèle de Fondation).

Le Modèle Brut (Base Model)
Le Modèle Instruct (Après Fine-tuning)

C’est quoi ? Le résultat direct du “Go”. Il a lu tout Internet.

Comportement : Si vous lui dites “Quelle est la capitale de la France ?”, il pourrait répondre “Et quelle est la population de Paris ?” car il pense que vous écrivez une liste de questions de géographie. Il complète le texte, il ne “répond” pas encore.

Usage : Inutilisable tel quel pour le grand public. Il sert de base pour les étapes suivantes.

Les Pièges à Éviter

Si vous interagissez avec des équipes de Data Science ou si vous planifiez des projets IA, comprenez bien les implications de cette phase.

Ne confondez pas Pré-entraînement et Fine-tuning :
- Pré-entraînement : 3 mois, 10M€+, apprend une langue et des connaissances générales. (On ne le fait presque jamais soi-même).
- Fine-tuning : 3 heures à 3 jours, 100€ à 1000€, apprend un jargon spécifique ou un format de réponse. (Accessible aux entreprises).
L’obsolescence immédiate : Le jour où le modèle sort du “four” après 3 mois, ses connaissances s’arrêtent à la date du lancement. C’est le fameux “Knowledge Cutoff”. Si le “Go” a été donné en janvier 2023, le modèle ne connaît pas les événements de mars 2023.
Le Biais fossilisé : Tout ce qui était dans les données au moment du “Go” est gravé dans le marbre des paramètres. On ne peut pas facilement “effacer” un concept raciste ou faux appris durant cette phase sans risquer d’abîmer le reste des connaissances.

À Retenir

Le “Go” est un point de non-retour économique : C’est l’investissement lourd de l’IA générative.
C’est une compression du web : Le but est de faire entrer la complexité du monde dans un fichier de quelques gigaoctets.
La durée est incompressible : Malgré les progrès matériels, on augmente la taille des modèles, donc la durée de 3-4 mois reste un standard pour les modèles “Frontier” (SOTA).
Vous n’aurez probablement jamais à le faire : 99% des entreprises utilisent des modèles déjà pré-entraînés par les géants (Meta, Google, Mistral) et se contentent de les adapter.

Notions Liées

Foundation Model : Le produit fini qui sort de cette phase.
GPU (Graphics Processing Unit) : Les ouvriers qui travaillent pendant ces 3 mois.
Token : L’unité de base que le modèle apprend à prédire.
Fine-tuning : L’étape qui vient après le rendez-vous de 3 mois.
Loss Function : La boussole qui guide l’apprentissage.