RandomForest : Une forêt d'arbres décisionnels qui votent

Vous avez sans doute déjà regardé le jeu télévisé “Qui veut gagner des millions ?”. Lorsque le candidat hésite sur une réponse complexe, il dispose d’un joker redoutable : “L’avis du public”. Individuellement, chaque personne dans le public peut se tromper, avoir des préjugés ou manquer de connaissances. Mais statistiquement, lorsque vous agrégez les votes de centaines de personnes, la réponse majoritaire est presque toujours la bonne.

Le Random Forest (ou Forêt Aléatoire), c’est exactement ce principe appliqué à l’intelligence artificielle.

Plutôt que de faire confiance à un seul “expert” numérique (un arbre de décision unique) qui pourrait avoir une vision trop étroite ou biaisée de vos données, cet algorithme convoque une assemblée de centaines, voire de milliers d’experts. Il les consulte tous, récolte leurs avis, et tranche en faveur de la majorité.

Dans cet article, nous allons démonter ce mécanisme fascinant qui a dominé le monde de la Data Science des années 2000 à 2015 et qui reste, aujourd’hui encore, un standard industriel pour sa robustesse et sa fiabilité.

Le Problème : Le génie fragile de l’expert unique

Pour comprendre pourquoi le Random Forest est nécessaire, il faut d’abord regarder son composant de base : l’Arbre de Décision.

Imaginez un arbre de décision comme un médecin très pointilleux qui apprend par cœur un manuel médical (vos données d’entraînement). Il pose des questions en cascade : “Le patient a-t-il de la fièvre ? Si oui, a-t-il plus de 50 ans ? Si non, tousse-t-il ?”. À la fin du questionnaire, il donne un diagnostic.

C’est intuitif, mais cela pose un problème majeur en Machine Learning : le surapprentissage (overfitting) et la variance.

L’analogie du perroquet savant

Un arbre de décision unique a tendance à devenir un “perroquet savant”. Il apprend si bien les détails et le bruit de vos données d’entraînement qu’il finit par confondre l’anecdote avec la règle générale.

Si vous changez ne serait-ce qu’une petite partie des données d’entrée, l’arbre peut construire une structure totalement différente et changer radicalement de prédiction.
Il manque de robustesse. Il est excellent pour expliquer le passé (les données qu’il a vues), mais souvent médiocre pour prédire le futur (les nouvelles données).

C’est ici qu’intervient le génie de Leo Breiman et Adele Cutler en 2001 : si un seul arbre est instable et biaisé, pourquoi ne pas en planter une forêt entière ?

Comment ça Marche : La force de la diversité

Le Random Forest n’est pas simplement un groupe d’arbres. C’est un groupe d’arbres diversifiés. Si vous entraînez 100 arbres identiques sur les mêmes données, ils feront tous les 100 mêmes erreurs. L’intérêt du vote est nul.

Pour que la “sagesse des foules” fonctionne, il faut que les avis soient indépendants. Le Random Forest utilise deux mécanismes astucieux pour forcer cette diversité, transformant des experts moyens en une équipe d’élite.

1. Le Bagging (Bootstrap Aggregating)

Le terme barbare “Bootstrap” désigne une technique d’échantillonnage simple : le tirage avec remise. Imaginez que vous avez un sac de 1000 billes (vos données).

Pour l’Arbre n°1, vous tirez 1000 billes au hasard, mais à chaque fois que vous en tirez une, vous la notez et la remettez dans le sac.
Résultat : certaines billes seront sélectionnées deux ou trois fois, d’autres jamais (environ 36% des données ne sont pas vues par l’arbre, on les appelle Out-of-Bag).
Vous répétez l’opération pour l’Arbre n°2, n°3, jusqu’à n°100.

Chaque arbre a donc une vision légèrement différente de la réalité. C’est comme si chaque juré d’un procès n’avait accès qu’à 63% des pièces à conviction, choisies au hasard.

2. La Randomisation des Features (La contrainte créative)

C’est la “sauce secrète” ajoutée par Breiman en 2001. Même avec le Bagging, si une variable est très puissante (ex: “Revenu” pour un prêt bancaire), tous les arbres risquent de l’utiliser dès la première question. Ils finiraient par se ressembler.

Pour éviter cela, le Random Forest impose une contrainte : à chaque fois qu’un arbre veut poser une question (créer un embranchement), il n’a pas le droit de regarder toutes les variables. Il doit choisir la meilleure question parmi un sous-ensemble aléatoire de variables (par exemple, seulement 3 variables tirées au sort parmi 10).

Cela force les arbres à être créatifs. Certains devront prédire la solvabilité d’un client sans regarder son revenu, en se basant uniquement sur son âge ou son lieu de résidence. Cela semble contre-intuitif, mais cela permet de dénicher des corrélations subtiles que la variable dominante aurait masquées.

3. Le Mécanisme de Vote

Une fois la forêt entraînée, comment prend-on une décision ?

En Classification (Catégories) : C’est la démocratie directe. Chaque arbre vote pour une classe (ex: “Client Risqué” ou “Client Sûr”). La classe qui obtient la majorité absolue l’emporte.
En Régression (Chiffres) : C’est la moyenne. Si les arbres prédisent le prix d’une maison, on fait la moyenne de toutes les estimations pour obtenir un prix consensuel.

Visualisation du flux

Voici comment une donnée traverse votre forêt pour aboutir à une prédiction :

graph TD
    Input[Données Brutes] --> Split{Distribution}
    Split -- Échantillon A --> Tree1[Arbre 1]
    Split -- Échantillon B --> Tree2[Arbre 2]
    Split -- Échantillon C --> Tree3[Arbre 3]
    
    subgraph "La Forêt (Entraînement Parallèle)"
    Tree1
    Tree2
    Tree3
    end
    
    Tree1 -- "Vote : OUI" --> Aggregation((Agrégation))
    Tree2 -- "Vote : NON" --> Aggregation
    Tree3 -- "Vote : OUI" --> Aggregation
    
    Aggregation --> Result[Résultat Final : OUI]
    
    style Input fill:#f9f,stroke:#333,stroke-width:2px
    style Result fill:#9f9,stroke:#333,stroke-width:2px

Applications Concrètes

Le Random Forest est le “couteau suisse” de la Data Science. Il est utilisé partout où l’on a besoin de fiabilité sans avoir à passer des semaines à régler des paramètres complexes.

Le Défi : Prédire si un client va rembourser son crédit (Scoring).

L’Apport du Random Forest : Une banque possède des données hétérogènes : âge (chiffre), profession (catégorie), historique d’incidents (texte/code).

Le modèle génère 500 arbres.
Certains arbres se focalisent sur la stabilité de l’emploi.
D’autres sur l’historique bancaire récent.
D’autres encore sur le patrimoine immobilier.

Si un client a un emploi instable (risque) mais un gros patrimoine (sécurité), un arbre unique pourrait le rejeter brutalement. La forêt, elle, va nuancer : les arbres “patrimoine” voteront OUI, compensant les arbres “emploi” qui votent NON. Le consensus sera plus juste et moins risqué pour la banque.

Les Pièges à Éviter

Même si le Random Forest est réputé pour être “plug-and-play” (il marche souvent bien avec les paramètres par défaut), il n’est pas magique.

L’effet “Boîte Noire” : Contrairement à un arbre unique que l’on peut dessiner et suivre du doigt (“Si A alors B”), une forêt de 1000 arbres est impossible à lire humainement. On perd en explicabilité directe ce qu’on gagne en précision.
Lenteur en temps réel : Pour faire une prédiction, l’ordinateur doit interroger chaque arbre. Si votre forêt contient 10 000 arbres profonds, cela peut prendre quelques millisecondes de trop pour des applications de trading haute fréquence.
Extrapolation impossible : Le Random Forest ne peut pas prédire des valeurs en dehors de ce qu’il a vu. Si vous l’entraînez sur des maisons valant entre 100k€ et 500k€, il ne pourra jamais prédire qu’une maison vaut 1 million d’euros, même si ses caractéristiques sont exceptionnelles. Il plafonnera à la valeur maximale connue.
Biais des données : Si vos données d’entraînement contiennent des biais (ex: peu de femmes dans un dataset de recrutement), la forêt va cristalliser et amplifier ce biais démocratiquement. Le vote majoritaire ne corrige pas l’injustice structurelle des données.

À Retenir

Le Random Forest est l’incarnation algorithmique de l’adage “Seul on va plus vite, ensemble on va plus loin”. C’est un pilier indispensable de la culture Data.

Voici ce que vous devez mémoriser pour briller en réunion :

C’est une méthode d’ensemble : Elle combine plusieurs modèles faibles pour créer un modèle fort.
La diversité est la clé : Grâce au Bagging (données différentes) et à l’aléa des features (questions différentes), les arbres ne sont pas corrélés.
Anti-Surapprentissage : C’est l’un des algorithmes les plus robustes contre le bruit des données. Il généralise très bien.
Polyvalent : Il traite aussi bien la classification (Oui/Non) que la régression (Combien ?) et gère les données manquantes avec brio.
Facile à utiliser : Il nécessite très peu de préparation des données (pas besoin de mise à l’échelle) et peu de réglages complexes.

Notions Liées

Pour approfondir votre compréhension de l’écosystème autour du Random Forest, explorez ces concepts :

Arbre de Décision : La brique fondamentale qui compose la forêt.
Surapprentissage (Overfitting) : Le problème majeur que le Random Forest résout.
Bagging : La technique statistique de rééchantillonnage au cœur de l’algorithme.
Gradient Boosting : L’autre grande famille d’algorithmes d’arbres, souvent comparée au Random Forest (ex: XGBoost).