Convolution
Ce que vous saurez dans 3 minutes
- Ingénieurs : Comprendre pourquoi le “partage de poids” et “l’invariance locale” sont les concepts clés des CNN.
- Curieux : Voir comment une opération mathématique simple peut détecter un chat quelle que soit sa position dans l’image.
1. Comprendre
Si on branche une image directement dans un réseau de neurones classique (Dense), ça explose. Trop de connexions. La convolution a résolu ce problème en s’inspirant de la biologie : chaque neurone ne regarde qu’une petite zone de l’image (son champ récepteur), et cette zone se déplace.
Définition
Comment ça marche (l’Intuition)
Imaginez une lampe torche carrée (3x3 pixels).
- Vous la placez en haut à gauche de l’image.
- Vous multipliez la lumière de la lampe par les pixels dessous.
- Vous notez le résultat (un seul chiffre).
- Vous déplacez la lampe d’un cran vers la droite (Stride).
- Vous recommencez jusqu’à avoir scanné toute l’image.
Le résultat est une version “filtrée” de l’image, qui met en évidence ce que la lampe cherchait (par exemple, les lignes verticales).
2. Appliquer
Comment les CNN (Convolutional Neural Networks) utilisent-ils cette opération pour reconnaître des objets ?
La Hiérarchie des Caractéristiques
Les réseaux empilent des couches de convolutions successives. C’est comme une chaîne de montage visuelle :
| Couche | Ce qu’elle voit | Exemple |
|---|---|---|
| Couche 1 (Bas niveau) | Traits simples, couleurs, gradients. | ”Il y a une ligne verticale ici.” |
| Couche 2 (Niveau moyen) | Formes géométriques, textures. | ”Il y a un cercle et des rayures.” |
| Couche 3 (Haut niveau) | Parties d’objets. | ”C’est une oreille, c’est une moustache.” |
| Sortie | Concept complet. | ”C’est un chat.” |
Les Paramètres Clés
La taille de la “lampe torche”. Souvent 3x3 ou 5x5. Plus il est grand, plus il voit large, mais plus c’est lourd à calculer.
De combien de pixels on déplace le filtre à chaque fois.
- Stride 1 : Haute précision.
- Stride 2 : Réduit la taille de l’image par 2 (downsampling).
Ajouter des zéros autour de l’image pour que le filtre puisse scanner les bords aussi bien que le centre. Sans padding, l’image rétrécit à chaque couche.
Le Pooling (La simplification)
Souvent, après une convolution, on fait un Pooling (Max Pooling). C’est comme une compression : on prend un carré de 2x2 pixels et on ne garde que le pixel le plus brillant (la valeur max).
- Pourquoi ? Pour réduire la taille de l’image et rendre le réseau moins sensible à la position exacte de l’objet (si le chat bouge d’un pixel, c’est toujours un chat).
3. Aller plus loin
Pourquoi les CNN perdent du terrain ?
Les CNN (ResNet, EfficientNet) ont dominé la vision de 2012 à 2021. Aujourd’hui, les Vision Transformers (ViT) les remplacent souvent.
- Limite des CNN : Ils sont “myopes”. Ils ne voient que des petites zones locales.
- Avantage des Transformers : Grâce au mécanisme d’Attention, ils peuvent connecter un pixel en haut à gauche avec un pixel en bas à droite dès la première couche. Ils ont une vision globale.
Cependant, les architectures modernes (ConvNeXt) prouvent que la convolution a encore de beaux jours devant elle si elle est bien optimisée.
Questions Fréquentes
Est-ce que le cerveau humain fait des convolutions ?
En partie, oui. Les travaux de Hubel et Wiesel (prix Nobel 1981) sur le cortex visuel du chat ont montré que certains neurones ne s’activent que pour des lignes orientées (barre verticale, barre horizontale). C’est exactement ce que simule la première couche d’un CNN.
Qu’est-ce qu’une convolution 1x1 ?
Cela semble inutile (scanner 1 pixel par 1 pixel ?). En fait, c’est très utile pour changer le nombre de canaux (profondeur) de l’image sans changer sa taille spatiale (largeur/hauteur). On l’utilise pour compresser l’information (Bottleneck).
Notions Liées (Spider Web)
- Domaine : Vision par Ordinateur (L’application principale)
- Technique Sœur : Mécanisme d’Attention (Le concurrent)
- Fondamentaux : Réseaux de Neurones
Ressources Externes
- Article Explorable : CNN Explainer (Poloclub) (Génial pour visualiser)
- Cours : Deep Learning Specialization (Andrew Ng)