Vision par Ordinateur

Ce que vous saurez dans 3 minutes

Décideurs : Comprendre pourquoi l’inspection qualité automatisée est devenue fiable à 99%.
Curieux : Découvrir que pour un ordinateur, une image n’est qu’un tableau Excel géant rempli de chiffres.
Experts : Réviser le passage des CNN (Convolutions) aux Vision Transformers (ViT).

1. Comprendre

Voir est facile pour nous, c’est inné. Mais pour une machine, “voir” un chat, c’est résoudre un problème mathématique d’une complexité inouïe.

Définition

Le Problème : La Matrice de Pixels

Pour un ordinateur, une photo de 1000x1000 pixels n’est pas une image. C’est une liste de 1 million de chiffres (ou 3 millions si c’est en couleur RGB).

Si vous changez l’éclairage, tous les chiffres changent.
Si le chat tourne la tête, tous les chiffres changent.
Pourtant, c’est toujours le même chat. Le défi de la CV est de trouver l’invariant (le concept de chat) au milieu de ce chaos de chiffres mouvants.

2. Appliquer

Quelles sont les grandes familles de tâches en Vision par Ordinateur ?

La Taxonomie des Tâches Visuelles

Tâche	Question posée	Exemple
Classification	”Qu’est-ce qu’il y a dans cette image ?"	"C’est un chat.”
Détection d’Objets	”Où sont les objets ?”	Encadrer tous les chats et chiens de l’image (Bounding Boxes).
Segmentation	”Quels pixels appartiennent au chat ?”	Colorier le chat au pixel près (détourage automatique).
Reconnaissance	”Qui est cette personne ?”	FaceID.
Action	”Que se passe-t-il ?"	"Un homme court après un bus.” (Compréhension de scène).

Les Réseaux de Neurones Convolutifs (Convolutional Neural Networks). Inspirés du cortex visuel du chat (l’animal). Ils scannent l’image avec des petits filtres pour repérer d’abord les bords, puis les formes, puis les textures, puis les objets entiers. C’est la technologie reine des années 2012-2022.

Mise en œuvre pratique

Google Lens sur votre téléphone identifie les plantes et traduit les menus.
Tesla Autopilot utilise 8 caméras pour reconstruire la route en 3D en temps réel.
Amazon Go (magasins sans caisse) suit chaque client et chaque produit pris en rayon.

3. Aller plus loin

Les Défis Restants

L’Occlusion : Reconnaître un objet qui est caché à 80% derrière une chaise. L’humain devine, la machine galère.
Les Attaques Adversariales : Il suffit parfois de changer quelques pixels (invisibles à l’œil nu) pour faire croire à une IA qu’un panda est un gibbon, ou qu’un panneau STOP est un panneau “45 km/h”. C’est un risque de sécurité majeur pour les voitures autonomes.

Vision + Langage (Multimodalité)

La frontière s’efface. Aujourd’hui, on ne fait plus juste de la “Vision”. On fait du Vision-Language Modeling. On peut demander à ChatGPT : “Pourquoi cette image est-elle drôle ?”. Pour répondre, il doit :

Voir l’image (Vision).
Identifier les éléments (Détection).
Comprendre le contexte culturel et l’ironie (Raisonnement).
Formuler l’explication (Langage).

Questions Fréquentes

Est-ce que la Vision par Ordinateur est meilleure que l’humain ?

Sur certaines tâches spécifiques et répétitives, oui. Pour détecter un cancer sur une radio ou un défaut sur une pièce d’usine qui défile à 100 km/h, l’IA est plus fiable et ne fatigue jamais. Mais pour comprendre une scène chaotique et imprévue dans la rue, l’humain reste supérieur.

Comment fonctionne la reconnaissance faciale ?

Elle ne compare pas votre photo pixel par pixel. Elle mesure la distance entre vos yeux, la forme de votre nez, vos pommettes, et transforme cela en une “empreinte faciale” mathématique unique (un vecteur). C’est ce vecteur qui est comparé.

Notions Liées (Spider Web)

Technique : Convolution (La brique mathématique de base), Deep Learning
Application : Utilisation Ordinateur (Quand la vision guide la souris), IA Générative (Faire l’inverse : Texte -> Image)

Ressources Externes

Cours Stanford : CS231n: Convolutional Neural Networks for Visual Recognition
Modèle : YOLO (You Only Look Once) (Référence en détection temps réel)