Vision par Ordinateur
Ce que vous saurez dans 3 minutes
- Décideurs : Comprendre pourquoi l’inspection qualité automatisée est devenue fiable à 99%.
- Curieux : Découvrir que pour un ordinateur, une image n’est qu’un tableau Excel géant rempli de chiffres.
- Experts : Réviser le passage des CNN (Convolutions) aux Vision Transformers (ViT).
1. Comprendre
Voir est facile pour nous, c’est inné. Mais pour une machine, “voir” un chat, c’est résoudre un problème mathématique d’une complexité inouïe.
Définition
Le Problème : La Matrice de Pixels
Pour un ordinateur, une photo de 1000x1000 pixels n’est pas une image. C’est une liste de 1 million de chiffres (ou 3 millions si c’est en couleur RGB).
- Si vous changez l’éclairage, tous les chiffres changent.
- Si le chat tourne la tête, tous les chiffres changent.
- Pourtant, c’est toujours le même chat. Le défi de la CV est de trouver l’invariant (le concept de chat) au milieu de ce chaos de chiffres mouvants.
2. Appliquer
Quelles sont les grandes familles de tâches en Vision par Ordinateur ?
La Taxonomie des Tâches Visuelles
| Tâche | Question posée | Exemple |
|---|---|---|
| Classification | ”Qu’est-ce qu’il y a dans cette image ?" | "C’est un chat.” |
| Détection d’Objets | ”Où sont les objets ?” | Encadrer tous les chats et chiens de l’image (Bounding Boxes). |
| Segmentation | ”Quels pixels appartiennent au chat ?” | Colorier le chat au pixel près (détourage automatique). |
| Reconnaissance | ”Qui est cette personne ?” | FaceID. |
| Action | ”Que se passe-t-il ?" | "Un homme court après un bus.” (Compréhension de scène). |
Technologies Clés
Les Réseaux de Neurones Convolutifs (Convolutional Neural Networks). Inspirés du cortex visuel du chat (l’animal). Ils scannent l’image avec des petits filtres pour repérer d’abord les bords, puis les formes, puis les textures, puis les objets entiers. C’est la technologie reine des années 2012-2022.
Depuis 2021, les Vision Transformers (ViT) (issus du traitement du langage) prennent le pouvoir. Ils découpent l’image en “mots” visuels (patchs) et analysent les relations globales entre eux. C’est ce qui permet la multimodalité (GPT-4 qui “comprend” une image).
Mise en œuvre pratique
- Google Lens sur votre téléphone identifie les plantes et traduit les menus.
- Tesla Autopilot utilise 8 caméras pour reconstruire la route en 3D en temps réel.
- Amazon Go (magasins sans caisse) suit chaque client et chaque produit pris en rayon.
3. Aller plus loin
Les Défis Restants
- L’Occlusion : Reconnaître un objet qui est caché à 80% derrière une chaise. L’humain devine, la machine galère.
- Les Attaques Adversariales : Il suffit parfois de changer quelques pixels (invisibles à l’œil nu) pour faire croire à une IA qu’un panda est un gibbon, ou qu’un panneau STOP est un panneau “45 km/h”. C’est un risque de sécurité majeur pour les voitures autonomes.
Vision + Langage (Multimodalité)
La frontière s’efface. Aujourd’hui, on ne fait plus juste de la “Vision”. On fait du Vision-Language Modeling. On peut demander à ChatGPT : “Pourquoi cette image est-elle drôle ?”. Pour répondre, il doit :
- Voir l’image (Vision).
- Identifier les éléments (Détection).
- Comprendre le contexte culturel et l’ironie (Raisonnement).
- Formuler l’explication (Langage).
Questions Fréquentes
Est-ce que la Vision par Ordinateur est meilleure que l’humain ?
Sur certaines tâches spécifiques et répétitives, oui. Pour détecter un cancer sur une radio ou un défaut sur une pièce d’usine qui défile à 100 km/h, l’IA est plus fiable et ne fatigue jamais. Mais pour comprendre une scène chaotique et imprévue dans la rue, l’humain reste supérieur.
Comment fonctionne la reconnaissance faciale ?
Elle ne compare pas votre photo pixel par pixel. Elle mesure la distance entre vos yeux, la forme de votre nez, vos pommettes, et transforme cela en une “empreinte faciale” mathématique unique (un vecteur). C’est ce vecteur qui est comparé.
Notions Liées (Spider Web)
- Technique : Convolution (La brique mathématique de base), Deep Learning
- Application : Utilisation Ordinateur (Quand la vision guide la souris), IA Générative (Faire l’inverse : Texte -> Image)
Ressources Externes
- Cours Stanford : CS231n: Convolutional Neural Networks for Visual Recognition
- Modèle : YOLO (You Only Look Once) (Référence en détection temps réel)