IA Générative

Ce que vous saurez dans 3 minutes

L’IA Générative (GenAI) n’est pas née avec ChatGPT. C’est l’aboutissement de décennies de recherche pour apprendre aux machines à “rêver”.

Pour les créatifs : Comprendre comment le “bruit” devient de l’art (Diffusion Models).
Pour les techs : Distinguer les architectures VAE, GAN et Transformers.
Pour les stratèges : Saisir pourquoi le coût marginal de la création de contenu tend vers zéro.

1. Comprendre

Le Changement de Paradigme : Discriminatif vs Génératif

Toute l’IA “classique” (années 2010) était majoritairement Discriminative.

Discriminatif : $P(Y|X)$ . On donne une image $X$ , l’IA prédit l’étiquette $Y$ (Chat ou Chien ?). C’est un Critique d’Art.
Génératif : $P(X)$ . On demande à l’IA de générer une image $X$ qui ressemble à un chat. C’est un Peintre.

L’Analogie : Le Faussaire

Imaginez un apprenti faussaire qui veut peindre des Picasso inédits.

Il observe 10 000 vrais Picasso (Training Data).
Il apprend les “règles” implicites : les formes cubiques, les couleurs, les traits (Weights).
Il peint une toile vierge en appliquant ces règles (Inference).
Le résultat est un “Nouveau Picasso” qui n’a jamais existé, mais qui en a tout l’ADN mathématique.

L’Arbre Généalogique des Architectures

graph TD
    GenAI[IA Générative]
    
    VAE[VAE<br/>Variational Autoencoders]
    GAN[GAN<br/>Generative Adversarial Nets]
    Trans[Transformers]
    Diff[Diffusion Models]
    
    GenAI --> VAE
    GenAI --> GAN
    GenAI --> Trans
    GenAI --> Diff
    
    VAE -->|2013| VAE_Note[Compression & Lissage]
    GAN -->|2014| GAN_Note[Ian Goodfellow : Vrai vs Faux]
    Trans -->|2017| GPT[GPT / BERT : Texte]
    Diff -->|2020| Stable[DALL-E / Midjourney : Images]
    
    style GenAI fill:#f3e8ff,stroke:#6b21a8
    style Diff fill:#dcfce7,stroke:#16a34a
    style Trans fill:#dbeafe,stroke:#1e40af

Zoom sur les Techniques

Le moteur des LLMs (ChatGPT). Il prédit le mot suivant (“Next Token Prediction”).

Principe : “Le chat est sur le…” -> Probabilité [Tapis: 80%, Toit: 10%].
Force : Compréhension contextuelle à longue distance (Attention Mechanism).

2. Appliquer

Cas d’Usage par Modalité

Modalité	Architecture Dominante	Outils Phares	Usage Métier
Texte	Transformer (Decoder)	GPT-4, Claude 3, Llama 3	Rédaction, Résumé, Chatbot, Code
Image	Latent Diffusion	Midjourney, Flux, SDXL	Marketing, Design, Storyboard
Audio	Audio Transformer	Suno, Udio, ElevenLabs	Musique, Doublage, Podcast
Vidéo	Spacetime Diffusion	Sora, Runway Gen-3	Clips publicitaires, Effets spéciaux

Le Coût de la Génération (Inference)

Générer coûte cher. Contrairement à une recherche Google (millisecondes, peu d’énergie), générer une image ou 1000 mots nécessite des milliards de calculs matriciels sur des GPU (H100). C’est pourquoi l’industrie cherche à :

Quantizer : Réduire la précision des calculs (de 16 bits à 4 bits) pour aller plus vite.
Distiller : Créer des petits modèles (Student) qui imitent les gros (Teacher).

Exemple Code : Le Principe de Diffusion (Python)

Voici une simplification conceptuelle de la “Forward Diffusion” (ajouter du bruit) en PyTorch. C’est la première étape pour entraîner un modèle d’image.

import torch
import torch.nn.functional as F

def forward_diffusion_step(image_tensor, noise_level):
    """
    Ajoute du bruit gaussien à une image (Principe de base de Stable Diffusion).
    """
    # Génération du bruit aléatoire (Même taille que l'image)
    noise = torch.randn_like(image_tensor)

    # Mélange Image + Bruit
    # noise_level = 0.0 (Image pure) -> 1.0 (Bruit pur)
    noisy_image = (1 - noise_level) * image_tensor + noise_level * noise

    return noisy_image, noise

# Simulation d'un tenseur image (3 canaux RGB, 64x64 pixels)
fake_image = torch.zeros(3, 64, 64) # Image noire
t = 0.1 # 10% de bruit

noisy_img, added_noise = forward_diffusion_step(fake_image, t)
print(f"Image bruitée (Min: {noisy_img.min():.2f}, Max: {noisy_img.max():.2f})")
# L'IA devra apprendre à prédire 'added_noise' à partir de 'noisy_img' pour l'annuler.

3. Aller plus loin

Au-delà du “Text-to-X” : Les Modèles Multimodaux

La frontière s’efface. GPT-4o ou Gemini 1.5 sont “nativement multimodaux”. Ils ne convertissent pas l’image en texte pour la comprendre ; ils “voient” les pixels et “entendent” le son dans le même réseau de neurones. Cela permet une fluidité d’interaction quasi-humaine.

La question des Données (Data Wall)

Les modèles ont “lu tout Internet”. Pour continuer à progresser (Scaling Laws), ils ont besoin de plus de données.

Problème : On manque de texte humain de qualité.
Solution : Les données synthétiques (Synthetic Data). Utiliser des modèles pour générer des données d’entraînement pour d’autres modèles (comme AlphaGo jouant contre lui-même).

Points de vigilance

Questions Fréquentes

L’IA crée-t-elle vraiment ou fait-elle du collage ?

Elle ne fait pas de collage. Elle ne stocke pas les images d’entraînement (elle n’a pas la place). Elle stocke les règles mathématiques qui permettent de reconstruire des images similaires. Si elle reproduit exactement la Joconde, c’est un “overfitting” (sur-apprentissage), considéré comme un bug, pas une fonctionnalité.

À qui appartient le contenu généré ?

C’est le flou juridique. Aux US, un contenu purement généré par IA n’est pas “copyrightable” (faute d’auteur humain). En Europe, cela dépend du degré d’intervention humaine (prompting complexe, retouches).

Notions Liées (Spider Web)

Architectures : Transformer, Reseaux Antagonistes Génératifs (GAN)
Modèles : LLM, Modele de Fondation
Impact : Hallucination, Deepfake

Ressources Externes

Cours Stanford : CS25: Transformers United
Papier Fondateur : Attention Is All You Need (2017)