Aller au contenu

Gemini (Google)

Ce que vous saurez dans 3 minutes

Gemini marque le retour en force de Google dans la course à l’IA. Contrairement à GPT-4 qui a longtemps ressemblé à un cerveau (LLM) avec des yeux greffés (Vision), Gemini a été entraîné dès le premier jour sur des images, des vidéos et de l’audio. Son atout maître n’est pas tant son raisonnement (similaire à GPT-4) que sa mémoire de travail titanesque (Long Context Window), capable d’avaler 1000 fichiers PDF d’un coup.


1. Comprendre

La Famille 1.5 (2024-2025)

Google a simplifié sa gamme autour de l’architecture 1.5 (Mixture of Experts) :

ModèleRôleCiblage
Gemini 1.5 ProLe cerveau. Meilleur raisonnement, fenêtre de 2M tokens.Tâches complexes, RAG massif, Coding.
Gemini 1.5 FlashLe sprinter. Ultra-rapide, peu coûteux.Chatbots, analyse de volume, latence faible.
Gemini NanoL’embarqué. Tourne en local sur Android (Pixel/Samsung).Confidentialité, hors-ligne.
Gemini UltraL’ancêtre (1.0). Puissant mais lent, progressivement remplacé.Obsolète.

”Multimodal Natif”, ça veut dire quoi ?

Cela permet à Gemini de comprendre des nuances subtiles dans des vidéos (ex: “A quelle seconde le chat fait-il tomber le vase ?”) que les systèmes assemblés ratent souvent.

La Révolution du “Long Context”

Gemini 1.5 Pro a brisé le plafond de verre de la “mémoire”.

  • GPT-4 : ~128k tokens (~300 pages).
  • Gemini 1.5 Pro : 2M tokens (~1.5 million de mots, ou 20h de vidéo, ou 22h d’audio).

Cela permet de faire du “Many-Shot Learning” : au lieu de fine-tuner un modèle, on lui donne tout le manuel de l’entreprise dans le prompt.


2. Appliquer

Utiliser l’API Vertex AI / Google AI Studio

Google offre une “Free Tier” généreuse pour les développeurs. Voici comment analyser une vidéo avec Python.

import google.generativeai as genai
import time
# Configuration
genai.configure(api_key="VOTRE_LISTE_API")
# Upload du fichier vidéo (lourd)
video_file = genai.upload_file(path="conference_replay.mp4")
# Attente du traitement (Google doit 'regarder' la vidéo)
while video_file.state.name == "PROCESSING":
time.sleep(10)
video_file = genai.get_file(video_file.name)
# Initialisation du modèle
model = genai.GenerativeModel(model_name="gemini-1.5-pro")
# Prompt
prompt = "Résume les points clés de cette conférence et extrais les citations drôles."
response = model.generate_content([video_file, prompt])
print(response.text)

Intégration Écosystème

La force de Gemini est son intégration dans l’OS de Google :

  • Workspace : “Résume moi ces 50 emails non lus”.
  • Android : Remplace Google Assistant. Peut interagir avec les apps (“Trouve un resto dans mes maps et réserve”).
  • Code : Propulse les fonctionnalités d’aide dans Android Studio et IDX.

3. Aller plus loin

Architecture MoE (Mixture of Experts)

Gemini 1.5 utilise une architecture MoE. Au lieu d’activer tout le cerveau pour chaque question (dense), il n’active que les “experts” pertinents (ex: l’expert en Shakespeare et l’expert en Python).

  • Avantages : Inférence plus rapide, coût moindre.
  • Inconvénients : Parfois moins cohérent sur des tâches nécessitant une vision holistique.

Le “Needle In A Haystack” (NIAH)

Le test standard pour les modèles à long contexte est de cacher une “aiguille” (une phrase aléatoire) dans une “botte de foin” (1 million de tokens de texte). Gemini 1.5 Pro atteint régulièrement 99%+ de succès sur ce test, prouvant qu’il ne “perd” pas d’information au milieu du contexte (contrairement à d’autres modèles qui oublient le milieu).

Controverses et Sécurité

Le lancement de Gemini a été entaché par :

  1. La démo truquée (Hands-on video) : Google a admis avoir édité la vidéo pour la rendre plus fluide.
  2. Le wokisme de l’image : Le générateur d’images refusait de générer des personnes blanches dans des contextes historiques (ex: Vikings noirs), révélant un RLHF mal calibré sur la diversité. Google a dû suspendre la génération de personnes pendant des semaines.

Questions Fréquentes

Est-ce que Gemini utilise mes données pour s’entraîner ?

En version Grand Public (Gratuit), oui, Google peut utiliser vos conversations pour améliorer le modèle (sauf si désactivé). En version Workspace / Enterprise / Cloud, vos données restent privées et ne servent pas à l’entraînement.

Gemini vs ChatGPT : Lequel choisir ?
  • ChatGPT (GPT-4o) : Plus “humain”, meilleur en conversation pure et en écriture créative. Meilleure application mobile (Voice Mode).
  • Gemini 1.5 Pro : Indispensable si vous avez de gros documents à analyser ou si vous vivez dans l’écosystème Google (Docs/Drive).

Notions Liées (Spider Web)

Ressources Externes