Convolution

Ce que vous saurez dans 3 minutes

Ingénieurs : Comprendre pourquoi le “partage de poids” et “l’invariance locale” sont les concepts clés des CNN.
Curieux : Voir comment une opération mathématique simple peut détecter un chat quelle que soit sa position dans l’image.

1. Comprendre

Si on branche une image directement dans un réseau de neurones classique (Dense), ça explose. Trop de connexions. La convolution a résolu ce problème en s’inspirant de la biologie : chaque neurone ne regarde qu’une petite zone de l’image (son champ récepteur), et cette zone se déplace.

Définition

Comment ça marche (l’Intuition)

Imaginez une lampe torche carrée (3x3 pixels).

Vous la placez en haut à gauche de l’image.
Vous multipliez la lumière de la lampe par les pixels dessous.
Vous notez le résultat (un seul chiffre).
Vous déplacez la lampe d’un cran vers la droite (Stride).
Vous recommencez jusqu’à avoir scanné toute l’image.

Le résultat est une version “filtrée” de l’image, qui met en évidence ce que la lampe cherchait (par exemple, les lignes verticales).

2. Appliquer

Comment les CNN (Convolutional Neural Networks) utilisent-ils cette opération pour reconnaître des objets ?

La Hiérarchie des Caractéristiques

Les réseaux empilent des couches de convolutions successives. C’est comme une chaîne de montage visuelle :

Couche	Ce qu’elle voit	Exemple
Couche 1 (Bas niveau)	Traits simples, couleurs, gradients.	”Il y a une ligne verticale ici.”
Couche 2 (Niveau moyen)	Formes géométriques, textures.	”Il y a un cercle et des rayures.”
Couche 3 (Haut niveau)	Parties d’objets.	”C’est une oreille, c’est une moustache.”
Sortie	Concept complet.	”C’est un chat.”

Les Paramètres Clés

La taille de la “lampe torche”. Souvent 3x3 ou 5x5. Plus il est grand, plus il voit large, mais plus c’est lourd à calculer.

Le Pooling (La simplification)

Souvent, après une convolution, on fait un Pooling (Max Pooling). C’est comme une compression : on prend un carré de 2x2 pixels et on ne garde que le pixel le plus brillant (la valeur max).

Pourquoi ? Pour réduire la taille de l’image et rendre le réseau moins sensible à la position exacte de l’objet (si le chat bouge d’un pixel, c’est toujours un chat).

3. Aller plus loin

Pourquoi les CNN perdent du terrain ?

Les CNN (ResNet, EfficientNet) ont dominé la vision de 2012 à 2021. Aujourd’hui, les Vision Transformers (ViT) les remplacent souvent.

Limite des CNN : Ils sont “myopes”. Ils ne voient que des petites zones locales.
Avantage des Transformers : Grâce au mécanisme d’Attention, ils peuvent connecter un pixel en haut à gauche avec un pixel en bas à droite dès la première couche. Ils ont une vision globale.

Cependant, les architectures modernes (ConvNeXt) prouvent que la convolution a encore de beaux jours devant elle si elle est bien optimisée.

Questions Fréquentes

Est-ce que le cerveau humain fait des convolutions ?

En partie, oui. Les travaux de Hubel et Wiesel (prix Nobel 1981) sur le cortex visuel du chat ont montré que certains neurones ne s’activent que pour des lignes orientées (barre verticale, barre horizontale). C’est exactement ce que simule la première couche d’un CNN.

Qu’est-ce qu’une convolution 1x1 ?

Cela semble inutile (scanner 1 pixel par 1 pixel ?). En fait, c’est très utile pour changer le nombre de canaux (profondeur) de l’image sans changer sa taille spatiale (largeur/hauteur). On l’utilise pour compresser l’information (Bottleneck).

Notions Liées (Spider Web)

Domaine : Vision par Ordinateur (L’application principale)
Technique Sœur : Mécanisme d’Attention (Le concurrent)
Fondamentaux : Réseaux de Neurones

Ressources Externes

Article Explorable : CNN Explainer (Poloclub) (Génial pour visualiser)
Cours : Deep Learning Specialization (Andrew Ng)