Aller au contenu

Plan de formation : Comprendre les LLM et leurs risques (90 min)

Imaginez que l’on vous remette les clés d’une Formule 1 sans jamais vous avoir appris à conduire, ni expliqué que les freins sont parfois capricieux. C’est exactement ce qui se passe aujourd’hui dans la majorité des entreprises : des collaborateurs enthousiastes utilisent des outils surpuissants comme ChatGPT, Claude ou Gemini pour traiter des données sensibles, sans avoir la moindre idée de la mécanique sous le capot ni des risques d’accident.

Le Plan de formation “Comprendre les LLM et leurs risques” est votre permis de conduire accéléré. C’est un module intensif standardisé de 90 minutes, conçu pour transformer un utilisateur naïf en un opérateur conscient.

Loin d’être un cours théorique pour devenir ingénieur, c’est une intervention chirurgicale pédagogique. Elle vise à corriger l’asymétrie dangereuse entre la facilité d’utilisation de l’IA (on lui parle, elle répond) et la complexité de ses failles de sécurité (fuites de données, injections, hallucinations). En une heure et demie, vous passez du statut de “passager passif” à celui de “pilote responsable”.

Le Problème : L’illusion de la simplicité

Pourquoi consacrer 90 minutes à comprendre un outil qui semble aussi simple qu’une messagerie instantanée ? Parce que cette simplicité est le piège principal.

La boîte noire cognitive

Contrairement à un logiciel classique (comme Excel) qui obéit à des règles logiques strictes, un Grand Modèle de Langage (LLM) est probabiliste. Il ne “sait” rien, il prédit le mot suivant. Cette nature statistique crée une opacité cognitive : vous ne pouvez pas deviner pourquoi le modèle vous donne une réponse, ni si elle est vraie, simplement en regardant le résultat. Sans formation, votre cerveau humain a tendance à faire une confiance aveugle à une machine qui s’exprime avec assurance. C’est ce qu’on appelle le biais de normalité technologique.

Le Shadow AI et la passoire à données

La démocratisation fulgurante de ces outils a créé un phénomène de “Shadow AI” : l’utilisation d’IA non approuvées par la direction informatique.

  • Le risque : Un collaborateur copie-colle un rapport stratégique dans un LLM public pour en faire un résumé.
  • La conséquence : Ces données peuvent être utilisées pour entraîner le modèle et ressortir, des mois plus tard, dans la réponse fournie à un concurrent.

Des menaces invisibles pour l’IT classique

Les équipes de sécurité informatique traditionnelles sont formées pour bloquer des virus ou des intrusions réseau. Or, les attaques contre les LLM sont sémantiques. Une “Injection de Prompt” ne nécessite pas de code informatique, juste une phrase bien tournée qui convainc le modèle de trahir ses instructions. Sans une acculturation spécifique, ces nouvelles menaces passent sous les radars.

Comment ça Marche : Anatomie des 90 minutes

Ce plan de formation est structuré pour maximiser l’impact mémoriel en un temps record. Il suit une progression logique : comprendre le moteur, voir comment on le casse, et apprendre à le protéger.

graph TD
    A[Début : 0 min] -->|Module 1 : 20 min| B(Le Moteur : Architecture & RAG)
    B -->|Module 2 : 40 min| C(Le Crash Test : OWASP Top 10)
    C -->|Module 3 : 20 min| D(Le Bouclier : Mitigation & Bonnes Pratiques)
    D -->|Module 4 : 10 min| E(Atterrissage : Cas Réels & Q&A)
    E --> F[Fin : 90 min]
    
    style B fill:#e1f5fe,stroke:#01579b,stroke-width:2px
    style C fill:#ffebee,stroke:#b71c1c,stroke-width:2px
    style D fill:#e8f5e9,stroke:#1b5e20,stroke-width:2px

Module 1 : Démystifier la magie (20 min)

On ne peut pas sécuriser ce qu’on ne comprend pas. Ce premier bloc ouvre le capot.

  • La Tokenization : Vous apprendrez que l’IA ne lit pas des mots, mais des morceaux de mots (tokens) convertis en nombres. Cela explique pourquoi elle est excellente pour écrire des poèmes mais parfois médiocre en calcul mental.
  • L’Entraînement : Comprendre la chaîne “Collecte massive de données → Apprentissage → Fine-tuning”. C’est ici que l’on comprend que les biais racistes ou sexistes ne sont pas des bugs, mais le reflet des données d’internet.
  • Le RAG (Retrieval-Augmented Generation) : Une introduction à cette technique qui permet à l’IA de consulter vos documents d’entreprise sans halluciner. C’est l’équivalent de donner un livre ouvert à un étudiant pendant l’examen.

Module 2 : La cartographie des dangers (40 min)

C’est le cœur du réacteur. On y explore le OWASP Top 10 for LLMs, la liste officielle des dix risques les plus critiques. Plutôt qu’une liste théorique, ce module utilise des démonstrations d’attaques.

  1. LLM01 - Injection de Prompt : Le formateur montre comment, en demandant au modèle de “jouer un rôle” ou d’ignorer ses instructions précédentes, on peut lui faire révéler des secrets ou générer du contenu haineux.
  2. LLM02 - Fuite de données : Démonstration de la facilité avec laquelle des informations personnelles (PII) peuvent être extraites d’un modèle mal configuré.
  3. LLM06 - Capacité d’action excessive : Le danger de connecter un LLM à votre boîte mail ou à votre agenda sans garde-fous. Imaginez un assistant qui supprime tous vos mails parce qu’il a mal interprété une demande de “nettoyage”.
  4. LLM09 - Hallucinations : Apprendre à repérer quand le modèle invente des faits avec un aplomb déconcertant.

Module 3 : L’armure du professionnel (20 min)

Maintenant que vous avez peur, on vous donne les moyens de vous défendre. Ce module liste les mesures de mitigation concrètes.

  • Hygiène du Prompt : Comment formuler des requêtes qui limitent les dérives.
  • Sanitisation des données : Apprendre à anonymiser les données avant de les envoyer dans le modèle.
  • Le principe du moindre privilège : Ne jamais donner à une IA plus d’accès qu’elle n’en a strictement besoin pour sa tâche.

Applications Concrètes

Comment ces connaissances se traduisent-elles dans la réalité de différents départements ?

Situation : Une banque déploie un chatbot interne pour aider les conseillers à trouver des infos sur les procédures de prêt.

Le Risque (Sans formation) : Un conseiller demande au chatbot : “Donne-moi la liste des clients ayant un découvert supérieur à 5000€”. Si le modèle n’est pas sécurisé (LLM06), il pourrait exécuter une requête SQL et afficher des données confidentielles à un employé non autorisé.

L’Apport de la formation : Le conseiller sait que le LLM n’est pas une base de données sécurisée. Il vérifie la source. L’équipe IT, formée, a mis en place des “Guardrails” (barrières de sécurité) qui empêchent le modèle d’accéder aux données brutes des clients.

Les Pièges à Éviter

Même après 90 minutes, certains réflexes ont la vie dure. Voici les écueils classiques post-formation.

À Retenir

Pour transformer votre organisation et sécuriser vos usages, gardez ces 5 piliers en tête :

  1. L’IA est une passoire par défaut : Considérez que tout ce que vous tapez dans un prompt public peut devenir public.
  2. L’Injection de Prompt est la nouvelle menace reine : Il est trivial de manipuler un modèle pour lui faire contourner ses règles. Soyez vigilants sur les entrées externes.
  3. Vérifiez, ne faites pas confiance : Les hallucinations sont une fonctionnalité, pas un bug. Tout fait, chiffre ou citation doit être sourcé.
  4. Le contexte est roi : Utilisez des techniques comme le RAG pour ancrer le modèle dans vos propres données vérifiées, plutôt que de compter sur sa “mémoire” d’internet.
  5. La sécurité est l’affaire de tous : Contrairement à un pare-feu géré par l’IT, la sécurité des LLM dépend de la qualité du prompt de chaque employé.

Notions Liées

Pour approfondir votre compréhension des mécanismes abordés :