IA Générative
Ce que vous saurez dans 3 minutes
L’IA Générative (GenAI) n’est pas née avec ChatGPT. C’est l’aboutissement de décennies de recherche pour apprendre aux machines à “rêver”.
- Pour les créatifs : Comprendre comment le “bruit” devient de l’art (Diffusion Models).
- Pour les techs : Distinguer les architectures VAE, GAN et Transformers.
- Pour les stratèges : Saisir pourquoi le coût marginal de la création de contenu tend vers zéro.
1. Comprendre
Le Changement de Paradigme : Discriminatif vs Génératif
Toute l’IA “classique” (années 2010) était majoritairement Discriminative.
- Discriminatif : . On donne une image , l’IA prédit l’étiquette (Chat ou Chien ?). C’est un Critique d’Art.
- Génératif : . On demande à l’IA de générer une image qui ressemble à un chat. C’est un Peintre.
L’Analogie : Le Faussaire
Imaginez un apprenti faussaire qui veut peindre des Picasso inédits.
- Il observe 10 000 vrais Picasso (Training Data).
- Il apprend les “règles” implicites : les formes cubiques, les couleurs, les traits (Weights).
- Il peint une toile vierge en appliquant ces règles (Inference).
- Le résultat est un “Nouveau Picasso” qui n’a jamais existé, mais qui en a tout l’ADN mathématique.
L’Arbre Généalogique des Architectures
graph TD
GenAI[IA Générative]
VAE[VAE<br/>Variational Autoencoders]
GAN[GAN<br/>Generative Adversarial Nets]
Trans[Transformers]
Diff[Diffusion Models]
GenAI --> VAE
GenAI --> GAN
GenAI --> Trans
GenAI --> Diff
VAE -->|2013| VAE_Note[Compression & Lissage]
GAN -->|2014| GAN_Note[Ian Goodfellow : Vrai vs Faux]
Trans -->|2017| GPT[GPT / BERT : Texte]
Diff -->|2020| Stable[DALL-E / Midjourney : Images]
style GenAI fill:#f3e8ff,stroke:#6b21a8
style Diff fill:#dcfce7,stroke:#16a34a
style Trans fill:#dbeafe,stroke:#1e40af
Zoom sur les Techniques
Le moteur des LLMs (ChatGPT). Il prédit le mot suivant (“Next Token Prediction”).
- Principe : “Le chat est sur le…” -> Probabilité [Tapis: 80%, Toit: 10%].
- Force : Compréhension contextuelle à longue distance (Attention Mechanism).
Le moteur de Midjourney et Stable Diffusion.
- Principe : On prend une image de chat, on ajoute du “bruit” (neige TV) jusqu’à ce qu’elle soit méconnaissable. L’IA apprend à faire l’inverse : partir du bruit pur et “retirer la neige” pour révéler un chat.
- Force : Qualité visuelle et diversité exceptionnelles.
Deux réseaux qui s’affrontent (Le Faussaire vs Le Policier).
- Principe : Le Générateur crée un faux. Le Discriminateur essaie de le démasquer. Le Générateur s’améliore jusqu’à tromper le Discriminateur.
- Force : Très rapide, mais difficile à entraîner (instable).
2. Appliquer
Cas d’Usage par Modalité
| Modalité | Architecture Dominante | Outils Phares | Usage Métier |
|---|---|---|---|
| Texte | Transformer (Decoder) | GPT-4, Claude 3, Llama 3 | Rédaction, Résumé, Chatbot, Code |
| Image | Latent Diffusion | Midjourney, Flux, SDXL | Marketing, Design, Storyboard |
| Audio | Audio Transformer | Suno, Udio, ElevenLabs | Musique, Doublage, Podcast |
| Vidéo | Spacetime Diffusion | Sora, Runway Gen-3 | Clips publicitaires, Effets spéciaux |
Le Coût de la Génération (Inference)
Générer coûte cher. Contrairement à une recherche Google (millisecondes, peu d’énergie), générer une image ou 1000 mots nécessite des milliards de calculs matriciels sur des GPU (H100). C’est pourquoi l’industrie cherche à :
- Quantizer : Réduire la précision des calculs (de 16 bits à 4 bits) pour aller plus vite.
- Distiller : Créer des petits modèles (Student) qui imitent les gros (Teacher).
Exemple Code : Le Principe de Diffusion (Python)
Voici une simplification conceptuelle de la “Forward Diffusion” (ajouter du bruit) en PyTorch. C’est la première étape pour entraîner un modèle d’image.
import torchimport torch.nn.functional as F
def forward_diffusion_step(image_tensor, noise_level): """ Ajoute du bruit gaussien à une image (Principe de base de Stable Diffusion). """ # Génération du bruit aléatoire (Même taille que l'image) noise = torch.randn_like(image_tensor)
# Mélange Image + Bruit # noise_level = 0.0 (Image pure) -> 1.0 (Bruit pur) noisy_image = (1 - noise_level) * image_tensor + noise_level * noise
return noisy_image, noise
# Simulation d'un tenseur image (3 canaux RGB, 64x64 pixels)fake_image = torch.zeros(3, 64, 64) # Image noiret = 0.1 # 10% de bruit
noisy_img, added_noise = forward_diffusion_step(fake_image, t)print(f"Image bruitée (Min: {noisy_img.min():.2f}, Max: {noisy_img.max():.2f})")# L'IA devra apprendre à prédire 'added_noise' à partir de 'noisy_img' pour l'annuler.3. Aller plus loin
Au-delà du “Text-to-X” : Les Modèles Multimodaux
La frontière s’efface. GPT-4o ou Gemini 1.5 sont “nativement multimodaux”. Ils ne convertissent pas l’image en texte pour la comprendre ; ils “voient” les pixels et “entendent” le son dans le même réseau de neurones. Cela permet une fluidité d’interaction quasi-humaine.
La question des Données (Data Wall)
Les modèles ont “lu tout Internet”. Pour continuer à progresser (Scaling Laws), ils ont besoin de plus de données.
- Problème : On manque de texte humain de qualité.
- Solution : Les données synthétiques (Synthetic Data). Utiliser des modèles pour générer des données d’entraînement pour d’autres modèles (comme AlphaGo jouant contre lui-même).
Points de vigilance
Questions Fréquentes
L’IA crée-t-elle vraiment ou fait-elle du collage ?
Elle ne fait pas de collage. Elle ne stocke pas les images d’entraînement (elle n’a pas la place). Elle stocke les règles mathématiques qui permettent de reconstruire des images similaires. Si elle reproduit exactement la Joconde, c’est un “overfitting” (sur-apprentissage), considéré comme un bug, pas une fonctionnalité.
À qui appartient le contenu généré ?
C’est le flou juridique. Aux US, un contenu purement généré par IA n’est pas “copyrightable” (faute d’auteur humain). En Europe, cela dépend du degré d’intervention humaine (prompting complexe, retouches).
Notions Liées (Spider Web)
- Architectures : Transformer, Reseaux Antagonistes Génératifs (GAN)
- Modèles : LLM, Modele de Fondation
- Impact : Hallucination, Deepfake
Ressources Externes
- Cours Stanford : CS25: Transformers United
- Papier Fondateur : Attention Is All You Need (2017)