BERT : Le modèle qui a appris à lire entre les lignes

Imaginez que vous deviez traduire la phrase : “L’avocat est pourri”. Sans contexte, impossible de savoir si l’on parle du fruit oublié au fond du frigo ou d’un homme de loi corrompu. Pour comprendre, un humain lit instinctivement la phrase précédente ou suivante.

Pourtant, jusqu’en 2018, la majorité des intelligences artificielles lisaient comme des enfants débutants : mot après mot, de gauche à droite, sans jamais pouvoir “regarder en arrière” ou anticiper la fin de la phrase pour clarifier le début.

C’est ici qu’entre en scène BERT (Bidirectional Encoder Representations from Transformers).

Le Problème : L’ambiguïté du langage

Avant BERT, les modèles de langage (comme les premières versions des réseaux récurrents) souffraient d’une myopie directionnelle. Ils traitaient l’information de manière séquentielle.

Si un modèle lisait de gauche à droite, au moment où il rencontrait le mot “avocat”, il n’avait accès qu’aux mots précédents. Si le contexte clarifiant (“…dans sa plaidoirie”) arrivait trois mots plus tard, c’était trop tard : le sens était déjà mal encodé.

Cette limitation rendait les moteurs de recherche bêtes. Si vous tapiez une requête complexe, l’ordinateur se contentait de chercher les mots-clés un par un, sans saisir l’intention globale ou les nuances subtiles. Il manquait le contexte.

Comment ça Marche : Le lecteur omniscient

BERT a changé la donne en utilisant l’architecture Transformer (d’où le “T” de son nom), mais avec une astuce unique. Au lieu de prédire le mot suivant (comme le fait ChatGPT), BERT apprend en jouant à un jeu de “textes à trous”.

1. L’entraînement par le masque (Masked Language Modeling)

Pour apprendre la langue, BERT ne lit pas simplement des livres. On lui donne des millions de phrases où 15% des mots sont cachés (remplacés par un jeton [MASK]).

Son objectif : Deviner les mots cachés en s’aidant de tout le reste de la phrase.

Exemple : “Le [MASK] aboie après le facteur.”

Pour deviner “chien”, BERT doit regarder “Le” (avant) et “aboie” (après). Il est forcé de construire une compréhension bidirectionnelle. Il ne prédit pas le futur, il comprend le présent dans sa globalité.

2. La prédiction de la phrase suivante (Next Sentence Prediction)

BERT apprend aussi à comprendre les liens logiques entre deux phrases. On lui donne deux segments (A et B) et il doit dire si B suit logiquement A.

Phrase A : “Je vais à la boulangerie.”
Phrase B : “J’achète une baguette.”
Verdict BERT : Oui, suite logique.
Phrase A : “Je vais à la boulangerie.”
Phrase B : “Les pingouins volent mal.”
Verdict BERT : Non, aucun rapport.

Visualisation du processus

Voici comment BERT traite une phrase pour comprendre le mot “Banque” selon son contexte.

graph LR
    Input[Entrée: 'Il marche vers la banque de la rivière'] --> Tokenization[Découpage en Tokens]
    Tokenization --> Embeddings[Conversion en Vecteurs]
    
    subgraph BERT_Architecture [Moteur BERT]
        direction TB
        Attn[Attention Multi-têtes Bidirectionnelle]
        Layers[12 à 24 Couches de Neurones]
        Attn --> Layers
    end
    
    Embeddings --> BERT_Architecture
    BERT_Architecture --> Context[Contexte Capturé]
    
    Context --> Output1[Banque = Bord de l'eau]
    Context -.-> Output2[Banque != Institution financière]
    
    style BERT_Architecture fill:#f9f,stroke:#333,stroke-width:2px

La magie des embeddings dynamiques

Dans les anciens modèles (comme Word2Vec), le mot “banque” avait un code numérique unique (un vecteur), peu importe son usage. Avec BERT, le code numérique du mot “banque” change selon la phrase.

Dans “Banque postale”, le vecteur ressemble mathématiquement à “argent”.
Dans “Banque de la rivière”, le vecteur ressemble mathématiquement à “nature”.

C’est ce qu’on appelle une représentation contextuelle dynamique.

Applications Concrètes

BERT n’est pas un générateur de texte (il ne vous écrira pas un poème). C’est un comprenez-tout. Une fois pré-entraîné par Google sur Wikipédia et des milliers de livres, il peut être “affiné” (Fine-tuning) pour des tâches précises.

Le Cas : Depuis fin 2019, Google utilise BERT pour comprendre vos recherches.

Avant : Si vous cherchiez “voyageur brésil vers usa visa”, Google voyait juste les mots “brésil”, “usa”, “visa”. Il pouvait vous sortir des pages sur des Américains allant au Brésil.

Avec BERT : Le modèle comprend la préposition “vers”. Il saisit que la direction est cruciale. Il ne vous montre que les résultats pertinents pour un Brésilien voulant entrer aux USA. C’est la fin de la recherche par mot-clé bête et méchante.

Les Pièges à Éviter

Bien que révolutionnaire, BERT n’est pas l’outil universel.

À Retenir

Pour briller en réunion ou comprendre l’évolution du NLP, voici l’essentiel :

Bidirectionnel : C’est sa caractéristique clé. Il lit gauche-droite et droite-gauche simultanément pour un contexte total.
Le roi du contexte : Il résout les ambiguïtés (polysémie) mieux que n’importe quel modèle précédent.
Open Source : Google l’a rendu public en 2018, ce qui en a fait le standard industriel immédiat pour la classification de texte et la recherche.
Fine-Tuning : On prend un BERT “généraliste” et on l’entraîne un peu plus sur ses propres données (juridique, médical) pour en faire un expert domaine à moindre coût.
Encodeur pur : C’est un cerveau qui lit et comprend, pas une bouche qui parle.

Notions Liées

Pour approfondir votre compréhension de l’écosystème :

Transformer : L’architecture mère dont BERT est issu.
Tokenization : Comment BERT découpe les mots avant de les lire.
Fine-tuning : La méthode pour spécialiser BERT sur vos données.
GPT : Le cousin “génératif” de BERT (l’autre moitié du Transformer).