Gemini (Google) (FR)

From Systems analysis wiki
Jump to navigation Jump to search

Google Gemini est une famille de grands modèles de langage (LLM) multimodaux développée par la division de recherche Google DeepMind. Les modèles Gemini, présentés pour la première fois en décembre 2023, sont construits sur une architecture de réseaux de neurones Transformer avec un support natif pour le traitement et la génération de données dans plusieurs modalités, notamment le texte, les images, l'audio, la vidéo et le code informatique.

En février 2026, la génération actuelle est la gamme Gemini 3.x. Le développement architectural est centré sur l'intégration de mécanismes de raisonnement évolutif lors de l'inférence (inference-time scaling) et l'optimisation des modèles pour une utilisation au sein de systèmes agents autonomes (Agentic AI). L'application Gemini compte plus de 750 millions d'utilisateurs actifs mensuels.

Dénomination et philosophie

Le nom "Gemini" (du latin — Gémeaux) symbolise l'union de deux groupes de recherche de premier plan de Google — Google Brain et DeepMind — pour la création de ce projet. Jeff Dean, codirecteur technique de Google DeepMind, l'a confirmé dans une publication officielle du blog (mai 2024) : « The twins here are the folks in the legacy Brain team and the legacy DeepMind team ». Le projet portait initialement le nom de code « Titan » ; Dean a proposé le nom « Gemini » en avril 2023 — le même mois où a eu lieu la fusion formelle de Google Brain et DeepMind. Le nom fait également référence au programme spatial Gemini de la NASA (1965–1968), dont le rôle dans la préparation du programme Apollo a résonné auprès de l'équipe de développement.

La caractéristique clé et le fondement philosophique de Gemini est la multimodalité native. Contrairement à de nombreux modèles précédents, où les capacités multimodales étaient ajoutées par-dessus une base textuelle existante, Gemini a été conçu dès l'origine pour la compréhension, la manipulation et la combinaison simultanées de différents types d'informations. Le rapport technique de Gemini 1.0 (arXiv:2312.11805) confirme que le modèle a été « trained jointly across image, audio, video, and text data ». Cela permet au modèle non seulement de traduire des données entre modalités, mais de former une compréhension plus profonde et holistique de celles-ci.

Architecture et technologies clés

Les capacités des modèles Gemini sont définies par une série de décisions architecturales fondamentales. Google ne publie pas la conception complète de bas niveau de tous les composants internes de Gemini ; cependant, les sources publiques permettent d'établir la classe d'architecture : tous les modèles de la famille 1.5 et ultérieurs sont des modèles basés sur des transformers à mélange épars d'experts (sparse mixture-of-experts transformer-based models) avec un support multimodal natif (confirmé par la fiche du modèle Gemini 2.5 Flash).

Architecture multimodale native

L'architecture de Gemini repose sur le concept de fusion précoce (early fusion). Les patchs de pixels des images, les trames temporelles des vidéos, les audiogrammes et les tokens textuels sont projetés dans un espace latent unifié. Le rapport technique de Gemini 2.5 décrit cette approche comme « Unified Multimodal Token Interleaving ». Étant donné que tous les tokens de différentes modalités sont traités au sein d'une séquence partagée, les mécanismes standard d'auto-attention (self-attention) assurent naturellement l'intégration croisée des données de différentes modalités à chaque couche. Les signaux audio sont traités par des encodeurs spécialisés directement à partir de la forme d'onde (waveform), ce qui préserve les caractéristiques acoustiques (intonation, timbre, bruit de fond) qui sont perdues lors de l'utilisation de systèmes intermédiaires de transcription Speech-to-Text.

Pour la classe des transformers, l'opération fondamentale est le mécanisme d'attention :

Attention(Q,K,V)=softmax(QKdk)V

Q est la matrice des requêtes, K celle des clés, V celle des valeurs et dk la dimensionnalité des clés.

Mélange épars d'experts (Sparse MoE)

À partir de la version 1.5, les modèles Gemini utilisent une architecture Sparse Mixture-of-Experts (MoE). Gemini 1.0 employait un transformer dense ; la transition vers MoE est explicitement décrite dans le rapport technique de la version 1.5 : « This is our first release from Gemini 1.5, a new family… which incorporates a novel mixture-of-experts architecture ».

Dans l'architecture MoE, les couches standard de réseaux entièrement connectés (Feed-Forward Networks) sont remplacées par un ensemble de sous-réseaux spécialisés — les « experts ». Pour un token d'entrée xd, la sortie y est calculée comme la somme pondérée des sorties de k experts actifs (kE, où E est le nombre total d'experts) :

y=i𝒯k(x)gi(x)Ei(x)

Ei(x) est la fonction non linéaire du i-ème expert, 𝒯k(x) est l'ensemble des indices des k sous-réseaux sélectionnés, et le poids de routage gi(x) est calculé par une fonction de routage apprise (learned routing function) en appliquant la fonction Softmax sur les k valeurs les plus élevées.

Cette approche permet d'augmenter considérablement la capacité paramétrique totale du modèle tout en maintenant les coûts de calcul (FLOPs) à un niveau bas, car seul un sous-ensemble de paramètres est activé pour chaque token. Google n'a pas divulgué le nombre réel de paramètres des modèles Gemini.

Contexte long et apprentissage en contexte

Gemini 1.5 a réalisé une percée révolutionnaire en élargissant la fenêtre de contexte à 1 million de tokens en mode production (avec des tests expérimentaux allant jusqu'à 10 millions de tokens). C'est un ordre de grandeur supérieur aux modèles précédents (par exemple, GPT-4 Turbo avec 128 000 tokens). Google a rapporté un résultat de 99 % au test Needle In A Haystack avec une longueur de contexte de 1 million de tokens. Pour les générations suivantes, le contexte long s'est consolidé comme l'une des caractéristiques clés de la gamme. Ce contexte à grande échelle permet au modèle de :

  • Analyser des livres entiers, des vidéos de plusieurs heures (jusqu'à 3 heures) ou de grandes bases de code au sein d'une seule requête.
  • Effectuer un apprentissage en contexte (in-context learning) sur de grands volumes de données fournis dans le prompt, permettant des réponses hautement personnalisées sans nécessité d'ajustement fin (fine-tuning).

Modèles « pensants » et mise à l'échelle du calcul lors de l'inférence

À partir de Gemini 2.5, Google désigne le thinking comme un mode d'opération distinct. La documentation officielle le définit comme un processus de calcul interne qui améliore la planification et le raisonnement en plusieurs étapes. Les modèles de la version 2.5 (décrits comme « thinking models ») sont capables de générer et d'évaluer en interne des étapes de raisonnement intermédiaires avant de produire une réponse finale. Cela améliore significativement la précision sur les tâches logiques et mathématiques complexes.

Il est important de distinguer deux mécanismes :

  • Pensée intégrée (Thinking) : Le mode de base pour les modèles des séries 2.5 et 3, générant une chaîne cachée de raisonnement (Chain-of-Thought). L'API peut renvoyer des thought summaries — des résumés brefs du raisonnement interne plutôt que le flux complet des « pensées » brutes. À partir du modèle 3.1 Pro, le budget de réflexion est régulé par le paramètre thinking_level avec des valeurs de Low à Max.
  • Deep Think : Un mode expérimental avancé de raisonnement distinct qui utilise la génération parallèle d'hypothèses et nécessite des ressources de calcul considérablement plus importantes. Il a été annoncé lors de Google I/O le 20 mai 2025 et mis à disposition des abonnés AI Ultra le 1er août 2025. Le Deep Think ne doit pas être confondu avec le mécanisme de base de thinking.

Capacités agentiques (Agentic Capabilities)

À partir de la version 2.0, Gemini peut interagir avec le monde extérieur : invoquer des outils, effectuer des recherches sur Google, exécuter du code et contrôler des éléments d'interface utilisateur. Google a explicitement positionné Gemini 2.0 comme un modèle pour la « nouvelle ère agentique » (agentic era) avec un support natif d'utilisation d'outils (tool use).

En février 2026, l'API Gemini comprend une couche formellement établie de capacités agentiques avec prise en charge des outils : Google Search, Google Maps, Code Execution, URL Context, Computer Use, File Search, ainsi que Live API pour une interaction bidirectionnelle en temps réel.

Évolution des modèles Gemini

La famille Gemini évolue à un rythme extraordinairement rapide : entre décembre 2023 et février 2026, quatre générations principales de modèles ont été lancées.

Gemini 1.0 (décembre 2023)

Première génération, posant les bases de la multimodalité native. Présenté publiquement le 6 décembre 2023.

  • Versions : Ultra (modèle phare pour les tâches les plus complexes), Pro (modèle polyvalent) et Nano (compact pour les appareils mobiles ; subdivisé en Nano-1 avec 1,8 milliard de paramètres et Nano-2 avec 3,25 milliards).
  • Fenêtre de contexte : 32 768 tokens pour toutes les versions.
  • Réalisations : Gemini 1.0 Ultra est devenu le premier modèle à atteindre et dépasser la performance d'un expert humain sur le benchmark MMLU avec un résultat de 90,04 % (en utilisant la technique CoT@32 — chaîne de raisonnement avec 32 échantillons et vote à la majorité ; avec le prompting standard à 5 exemples, le résultat était d'environ 83,7 %). Il a obtenu des résultats SOTA sur 30 des 32 benchmarks académiques.
  • Fin de support : Gemini 1.0 Pro a été déclaré obsolète le 18 février 2025.

Gemini 1.5 (février — mai 2024)

Percée révolutionnaire dans la longueur du contexte et l'efficacité.

  • Architecture : Transition du transformer dense vers Mixture-of-Experts (MoE).
  • Fenêtre de contexte : Jusqu'à 1 million de tokens en production (2 millions par liste d'attente pour 1.5 Pro, annoncé lors de Google I/O en mai 2024).
  • Versions : 1.5 Pro (annoncé en février 2024 ; qualité au niveau du 1.0 Ultra avec un coût nettement inférieur) et 1.5 Flash (version légère et rapide, ajoutée en mai 2024).
  • Fin de support : Tous les modèles de Gemini 1.5 (Pro, Flash, Flash-8B) ont été retirés le 29 septembre 2025.

Gemini 2.0 (décembre 2024 — février 2025)

Transition vers l'« ère agentique ».

  • Chronologie : 11 décembre 2024 — annonce de 2.0 Flash Experimental (entrée multimodale, sortie textuelle) ; 5 février 2025 — disponibilité générale (GA) de 2.0 Flash, lancement de 2.0 Pro Experimental et 2.0 Flash-Lite.
  • Innovations clés : Capacités agentiques intégrées (tool use), génération native d'images et d'audio (initialement en mode limité pour les partenaires en accès anticipé), orientation vers des scénarios agentiques.
  • Fenêtre de contexte : Jusqu'à 2 millions de tokens (2.0 Pro) ; jusqu'à 1 million de tokens (2.0 Flash-Lite).
  • Fin de support : Les modèles 2.0 Flash et Flash-Lite sont programmés pour être retirés le 1er juin 2026.

Gemini 2.5 (mars — juin 2025)

Premier « modèle pensant » (thinking model) avec des budgets de raisonnement configurables.

  • Chronologie : 25 mars 2025 — annonce de 2.5 Pro Experimental ; 17 avril — 2.5 Flash (premier modèle de raisonnement entièrement hybride avec mode de pensée commutable) ; 20 mai (Google I/O) — mises à jour du 2.5 Pro et Flash, annonce de Deep Think ; 17 juin 2025 — GA simultanée du 2.5 Pro et 2.5 Flash ; le même jour — préversion de 2.5 Flash-Lite (GA le 22 juillet). 1er août — Deep Think mis à disposition des abonnés AI Ultra.
  • Innovations clés : Mécanisme intégré de « pensée » (thinking) avec des budgets configurables ; Deep Think comme mode avancé distinct. Résultats SOTA sur des benchmarks complexes de mathématiques, de logique et de programmation (AIME 2025 — 86,7 %, GPQA Diamond — 84,0 %, Humanity's Last Exam — 18,8 % sans outils).
  • Fenêtre de contexte : 1 million de tokens en entrée, jusqu'à 64 000 tokens en sortie. L'extension promise à 2 millions de tokens pour le 2.5 Pro n'a jamais été confirmée comme mise en œuvre au cours du cycle de vie du modèle.
  • Variantes spécialisées : Gemini 2.5 Flash Image (nom de code « Nano Banana », apparu anonymement dans l'Arena le 12 août, officiellement lancé le 26 août 2025 — devenu viral grâce à des images photoréalistes de « figurines 3D », attirant 10 millions de nouveaux utilisateurs) ; Computer Use Preview (7 octobre 2025, basé sur le 2.5 Pro) ; modèles Text-to-Speech (2.5 Flash TTS, 2.5 Pro TTS).
  • Rapport technique : Le rapport combiné Gemini 2.X a été publié sur arXiv le 7 juillet 2025 (arXiv:2507.06261), avec plus de 3 300 auteurs, couvrant les modèles 2.5 Pro, 2.5 Flash, 2.0 Flash et 2.0 Flash-Lite.

Gemini 3.x (novembre 2025 — février 2026)

La troisième génération a marqué la transition de la génération de base vers des flux de travail agentiques de longue durée (agentic workflows) et la résolution de problèmes scientifiques interdisciplinaires.

  • Gemini 3 Pro (18 novembre 2025) : Annoncé par le PDG d'Alphabet, Sundar Pichai, et le PDG de DeepMind, Demis Hassabis, comme « le modèle le plus intelligent de Google ». Premier modèle Gemini déployé dans Google Search le jour de son lancement. Premier modèle à franchir la barre des 1 500 Elo sur LMArena (1 501 au lancement). Résultats : GPQA Diamond — 91,9 % ; SWE-bench Verified — 76,2 % ; Humanity's Last Exam — 37,5 % (sans outils) ; SimpleQA — 72,1 %.
  • Gemini 3 Flash (17 décembre 2025) : Devenu le modèle par défaut dans l'application Gemini. Au prix de 0,50 $/1M tokens d'entrée, il a surpassé le 3 Pro sur le SWE-bench Verified (78 %) en utilisant 30 % de tokens en moins sur les tâches de raisonnement. GPQA Diamond — 90,4 % ; HLE — 33,7 %.
  • Gemini 3.1 Pro (19 février 2026) : Modèle phare à la date de publication. Première version incrémentale « .1 » (les générations précédentes utilisaient des intervalles .5). Résultat clé — ARC-AGI-2 : 77,1 % (plus du double des 31,1 % du 3 Pro). AIME 2025 — 91,2 % ; GPQA Diamond — 94,3 % ; SWE-bench Verified — 80,6 %. Introduction d'un nouveau niveau de pensée MEDIUM via le paramètre thinking_level. Point de terminaison dédié gemini-3.1-pro-preview-customtools pour le terminal bash et les fonctions personnalisées. Résolution des problèmes de troncature de sortie sur les générations longues. Canaux : Gemini App, Vertex AI, AI Studio, Gemini API, NotebookLM.
  • Gemini 3 Deep Think (mis à jour le 12 février 2026) : Mise à jour majeure du mode « pensant » spécialisé. Extension au-delà des mathématiques et de la programmation : résultats au niveau de la médaille d'or aux Olympiades internationales de physique (IPhO) et de chimie (IChO) 2025 ; ARC-AGI-2 — 84,6 % ; Humanity's Last Exam — 48,4 % ; CMT-Benchmark (physique théorique de la matière condensée) — 50,5 % ; Codeforces Elo — 3 455. L'agent de recherche Aletheia, basé sur Deep Think, a résolu de manière autonome plusieurs problèmes ouverts de la collection d'Erdős (y compris la conjecture Erdős-1051).

Tableau récapitulatif des générations de Gemini

Évolution des caractéristiques clés des modèles Gemini
Génération Année de lancement Versions clés Fenêtre de contexte max. Innovations architecturales clés et améliorations
Gemini 1.0 2023 Ultra, Pro, Nano 32 768 tokens Multimodalité native dès l'origine ; transformer dense ; dépassement de l'expert humain sur MMLU (90,04 % CoT@32).
Gemini 1.5 2024 Pro, Flash 1 000 000 de tokens (2M par liste d'attente) Architecture Mixture-of-Experts (MoE) ; extension révolutionnaire du contexte ; 99 % au Needle In A Haystack.
Gemini 2.0 2024–2025 Pro, Flash, Flash-Lite 1 000 000–2 000 000 de tokens Ère « agentic AI » : intégration native d'outils, génération d'images et d'audio, Live API.
Gemini 2.5 2025 Pro, Flash, Flash-Lite 1 000 000 de tokens (entrée), 64 000 (sortie) « Modèle pensant » (thinking model) ; budgets de raisonnement configurables ; Deep Think ; génération d'images (Nano Banana) ; Computer Use.
Gemini 3.x 2025–2026 3 Pro, 3 Flash, 3.1 Pro, 3 Deep Think 1 000 000 de tokens Flux de travail agentiques ; paramètre thinking_level ; percées sur ARC-AGI-2 et olympiades scientifiques ; Aletheia.

Résultats clés et benchmarks

Avec la saturation des benchmarks classiques (tels que MMLU), l'évaluation des performances des modèles Gemini s'est déplacée vers des tâches de raisonnement abstrait, de modélisation scientifique et d'ingénierie logicielle autonome. Les résultats proviennent de données officielles de Google (auto-déclarées) ; les comparaisons ne sont valides que lorsque le mode d'inférence, la présence/absence d'utilisation d'outils, la méthode d'échantillonnage (tentative unique vs. vote à la majorité) et le model-id spécifique correspondent.

Résultats des modèles Gemini sur les benchmarks clés (données de février 2026)
Benchmark Description de la tâche Gemini 2.5 Pro (juin 2025) Gemini 3 Pro (nov. 2025) Gemini 3.1 Pro (fév. 2026) Gemini 3 Deep Think (fév. 2026)
MMLU Compréhension multitâche du langage
GPQA Diamond Questions scientifiques de niveau doctorat 84,0 % 91,9 % 94,3 % N/D
Humanity's Last Exam Connaissances de pointe dans des domaines spécialisés 18,8 % 37,5 % 44,4 % 48,4 %
ARC-AGI-2 Casse-tête logiques abstraits 4,9 % 31,1 % 77,1 % 84,6 %
SWE-bench Verified Résolution autonome de problèmes dans des dépôts GitHub 63,8 %* 76,2 % 80,6 % N/D
AIME 2025 Problèmes mathématiques de niveau olympiade 86,7 % 91,2 %
Codeforces (Elo) Classement en programmation compétitive 2 887 3 455

* Le résultat du 2.5 Pro sur SWE-bench a été obtenu avec une configuration d'agent personnalisée (custom agent setup).

Classements LMArena (instantané de fin février 2026)

LMArena (anciennement Chatbot Arena) est une plateforme indépendante de vote à l'aveugle par paires. Les classements sont recalculés dynamiquement ; les valeurs à la date de lancement d'un modèle peuvent différer des valeurs actuelles.

Overall (instantané : 24 février 2026)
Modèle Score Position Votes Note
Gemini 3.1 Pro Preview 1 500 ± 9 #3 4 060 Préliminaire
Gemini 3 Pro 1 486 ± 4 #5 37 854
Gemini 3 Flash 1 473 ± 5 #7 28 847
Gemini 2.5 Pro 1 464 ± 3 #9 97 296
Gemini 2.5 Flash 1 411 ± 3 #64 96 163

Lors de son lancement le 18 novembre 2025, Gemini 3 Pro a atteint un score de 1 501 Elo, devenant le premier modèle à franchir la barre des 1 500 sur LMArena.

Systèmes spécialisés et agents

L'écosystème Gemini a été étendu avec des modèles et des plateformes capables d'effectuer des actions en plusieurs étapes dans des environnements numériques et physiques.

Agents autonomes

  • Jules — agent de codage autonome opérant de manière asynchrone dans des machines virtuelles sécurisées dans le cloud. Il crée des branches et des pull requests sur GitHub. Entré en bêta publique lors de Google I/O le 20 mai 2025 (plus de 140 000 améliorations de code pendant la période bêta) ; GA le 6 août 2025. Fin 2025, il est devenu l'un des plus grands contributeurs aux dépôts internes de Google.
  • Project Mariner — prototype de recherche d'un agent basé sur le navigateur pour les tâches web en plusieurs étapes. Migré vers des machines virtuelles cloud prenant en charge jusqu'à 10 tâches en parallèle et une fonctionnalité « Teach & Repeat ». A atteint 83,5 % sur le benchmark WebVoyager. Les capacités de Computer Use ont été portées vers l'API Gemini.
  • Google Antigravity — environnement de développement intégré (IDE) pour la gestion d'agents IA, présenté en novembre 2025. Les agents modifient le code de manière autonome, interagissent avec le terminal et un navigateur intégré, renvoyant des artefacts vérifiables (par exemple, des diffs de code) pour approbation par le développeur.
  • Agent Aletheia — agent de recherche mathématique spécialisé basé sur Gemini 3 Deep Think. Équipé d'un module de vérification en langage naturel et d'outils de recherche web pour la revue de littérature. Début 2026, il a résolu de manière autonome plusieurs problèmes mathématiques ouverts de la collection d'Erdős et a été co-auteur de publications scientifiques.

Agents IA grand public

  • Phone Automations — intégration d'un agent autonome au niveau du système d'exploitation Android (bêta pour Pixel 10 et Samsung Galaxy S26). Fonctionne dans un bac à sable sécurisé (secure sandbox), capable de naviguer dans des applications tierces sur la base de l'analyse visuelle de l'interface graphique.
  • Gemini in Chrome (Auto Browse) — agent de navigateur pour l'automatisation de tâches web en plusieurs étapes, disponible pour tous les utilisateurs de Chrome depuis septembre 2025 (mis à jour vers Gemini 3 en janvier 2026).

Computer Use

Les modèles Gemini 2.5 Computer Use sont optimisés pour le contrôle d'interfaces graphiques utilisateur (GUI). Le système prend en entrée des captures d'écran et un historique d'actions, générant des coordonnées (x,y) pour la simulation programmatique du curseur et des commandes de saisie clavier.

Gemini Robotics

Modèles de classe Vision-Language-Action (VLA) et Embodied Reasoning (ER) présentés en mars 2025. Ces architectures traitent des informations spatiotemporelles et prédisent des trajectoires 3D de mouvement de manipulateurs robotiques en tant que modalité de sortie native (arXiv:2503.20020).

Modèles génératifs spécialisés (début 2026)

  • Nano Banana 2 (Gemini 3.1 Flash Image) — lancé le 26 février 2026 ; modèle visuel combinant la vitesse de l'architecture Flash avec la qualité du Pro. Fournit une cohérence stricte des personnages entre différentes scènes, la génération native de typographie dans les images et l'intégration de filigranes cryptographiques SynthID avec des métadonnées C2PA.
  • Lyria 3 — modèle musical intégré à l'application Gemini le 18 février 2026. Génère des compositions musicales de 30 secondes (incluant voix et instruments) à partir de prompts textuels, de photos téléchargées ou de vidéos.
  • Veo 3.1 — modèle de génération vidéo. Prend en charge la création de clips utilisant jusqu'à trois images de référence (« Ingredients to Video »), la génération de transitions entre la première et la dernière image spécifiées, le rendu natif de vidéo verticale (9:16) et la mise à l'échelle en résolution 4K.
  • Med-Gemini — modèle spécifique au domaine médical (arXiv:2404.18416, arXiv:2405.03162).

Applications et écosystème

Google intègre profondément Gemini dans ses produits grand public et ses plateformes pour développeurs.

Produits grand public

  • Application Gemini : Chatbot (anciennement Bard, renommé le 8 février 2024) utilisant les modèles de la famille Gemini comme assistant IA universel. En février 2026, il compte plus de 750 millions d'utilisateurs actifs. Le déploiement actuel inclut le modèle 3.1 Pro. Abonnements : Google AI Pro (19,99 $/mois, remplaçant Google One AI Premium) et Google AI Ultra (249,99 $/mois, avec accès au Deep Think, Veo 3 et fonctionnalités prioritaires).
  • Google Workspace : Intégration de Gemini dans Gmail, Docs, Sheets et Meet pour l'aide à la rédaction, l'analyse de données et la génération de contenu (rebaptisé depuis Duet AI).
  • Google Search : La fonctionnalité AI Overviews génère des réponses synthétiques aux requêtes complexes en utilisant un modèle Gemini spécialisé. AI Mode, lancé lors de Google I/O 2025, offre une recherche approfondie avec des capacités agentiques (réservations, achats).
  • Android et Pixel : Gemini Nano (v3 sur Pixel 10 avec puce Tensor G5, août 2025) s'exécute localement sur les smartphones, fournissant des réponses intelligentes, des résumés, la détection d'appels frauduleux et des fonctionnalités d'accessibilité, tout en préservant la confidentialité des données. Les API ML Kit GenAI pour développeurs prennent en charge le résumé, la correction et la reconnaissance vocale sur l'appareil.
  • NotebookLM : A évolué d'un outil de prise de notes vers une plateforme créative complète. Intégré à Google Workspace en mars 2025. Prend en charge les Audio Overviews interactifs, les Video Overviews, les cartes mentales, les diaporamas et les infographies. Mis à jour vers Gemini 3 en décembre 2025 ; fenêtre de contexte complète de 1 million de tokens pour le chat depuis février 2026.
  • Gemini Live : Les fonctionnalités de caméra et de partage d'écran de Project Astra sont devenues gratuites pour tous les utilisateurs Android et iOS.

Plateformes pour développeurs

  • Google AI Studio et Gemini API : Interfaces principales pour accéder aux modèles Gemini via l'API. En février 2026, elles prennent en charge les blocs de capacités : Thinking, Thought signatures, Long context, Tools and agents (Google Search, Maps, Code Execution, URL Context, Computer Use, File Search, Deep Research, Live API).
  • Vertex AI : Plateforme d'entreprise avec des capacités avancées de sécurité et de gestion.
  • Google Gen AI SDK : A atteint la GA pour Python, JavaScript/TypeScript, Go et Java en mai 2025, fournissant un accès unifié à l'API développeurs Gemini et Vertex AI. Prend en charge le Model Context Protocol (MCP).
  • Gemini CLI : Outil en ligne de commande pour le codage IA dans le terminal (lancé en juin 2025).
  • Interactions API : Interface unifiée pour les modèles et agents (bêta depuis décembre 2025).

Cycle de vie de l'API et gestion des versions

Les modèles Gemini dans l'API sont classés en catégories stable, preview, latest et experimental. Un model_id spécifique et une famille de modèles ne sont pas la même chose ; pour les scénarios de production, il est critique de se lier à une version concrète et à ses délais de support. La documentation de l'API maintient un registre des dépréciations avec les dates de fin de service.

Pour prendre en charge les tâches autonomes de longue durée, ont été introduits : Session Resumption (stockage de l'état de session sur le serveur jusqu'à 24 heures) et Context Compression (mécanisme de fenêtre glissante pour la compression automatique du contexte lorsque les limites sont dépassées).

En décembre 2025, Google a réduit les quotas du niveau gratuit de l'API d'environ 92 % (sans préavis), ce qui a provoqué une vive réaction de la communauté des développeurs. Parallèlement, les coûts unitaires de service de Gemini ont diminué de 78 % au cours de 2025 grâce aux optimisations des modèles.

Limites et problèmes ouverts

  • Hallucinations et confabulations : Les modèles conservent une tendance à générer des informations factuellement incorrectes, en particulier lorsque les fonctionnalités d'ancrage (Search Grounding) sont désactivées. Gemini 3.1 Pro a réduit les taux d'hallucination sur le benchmark SimpleQA par rapport aux versions précédentes, mais le problème reste systémique pour tous les LLM.
  • Plagiat subconscient (Subconscious Plagiarism) : Les expériences avec l'agent Aletheia ont révélé un problème où le modèle reproduit des démonstrations non triviales de son jeu d'entraînement, les présentant comme des découvertes autonomes, ce qui complique la validation de la nouveauté dans la recherche en IA.
  • Dégradation dans un contexte long : Lors du traitement de contextes de 1 million de tokens ou plus, les modèles sont sujets à l'effet « Lost in the Middle » — une réduction de la précision d'extraction des faits situés au milieu du document.
  • Coûts de calcul élevés : L'inférence avec les paramètres maximaux du Deep Think nécessite considérablement plus de temps et de ressources (TPU), ce qui limite l'application dans les scénarios synchrones en temps réel.
  • Refus faux positifs (Over-refusals) : En raison des algorithmes stricts d'alignement (alignment), les modèles de raisonnement ont tendance à rejeter des requêtes légitimes en les classifiant à tort comme potentiellement dangereuses (en particulier dans le contexte de l'analyse de code et de la sécurité informatique). Les fiches de modèle signalent également des problèmes de ton « moralisateur » (preachy) dans les refus.
  • Limites du raisonnement : Les fiches de modèle des séries 2.5 et 3 listent des limitations dans la compréhension causale (causal understanding), les déductions logiques complexes (complex logical deduction) et le raisonnement contrefactuel (counterfactual reasoning), ainsi qu'une prévisibilité incomplète du respect des budgets de réflexion.

Aspects éthiques et sécurité

Le déploiement des modèles Gemini est accompagné d'un système de sécurité à plusieurs niveaux.

Cadres généraux

Secure AI Framework (SAIF) est l'approche générale de Google pour la sécurité des systèmes d'IA (annoncé en juin 2023), formant le contexte de développement mais n'étant pas un standard spécifique à Gemini. Frontier Safety Framework v3 (septembre 2025) couvre les domaines CBRN, cybersécurité, R&D en ML, manipulation nuisible et une approche exploratoire des risques de désalignement (misalignment).

Mesures spécifiques à Gemini

  • Fiches de modèle (Model cards) sont les sources primaires d'information sur les limites et la sécurité des modèles spécifiques. Elles contiennent des sections sur l'Utilisation prévue et les Limitations, l'Éthique et la Sécurité du contenu, et la Sécurité de frontière. La fiche du modèle Gemini 3 Pro a confirmé que le modèle n'a atteint aucun Niveau de capacité critique (Critical Capability Level) dans les domaines CBRN et cybersécurité.
  • Tests de biais et de toxicité : Analyse et atténuation des biais dans les données d'entraînement et la génération de contenu.
  • Équipes rouges (Red Teaming) : Simulation d'attaques pour identifier les vulnérabilités et les comportements indésirables. Les tests indépendants de désalignement ont trouvé « une certaine augmentation de la conscience situationnelle » mais aucun risque critique.

Sondes de sécurité (Safety Probes)

Pour empêcher la génération de contenu nuisible, la classification des activations cachées est utilisée. Pour résoudre le problème de la perte de signal dans les contextes longs, l'architecture MultiMax est employée : la sonde extrait la valeur maximale à travers toutes les couches H pour chaque token j dans la séquence ni :

fMultiMax(Si)=h=1Hmaxj[ni][vhyi,j]

Les sondes sont combinées avec les modèles de base en classificateurs en cascade, améliorant la précision du filtrage à faible coût de calcul (arXiv:2601.11516).

Marquage cryptographique (SynthID)

Les données audio générées via la Live API et les images (provenant des modèles Nano Banana / Flash Image) sont marquées par l'algorithme SynthID. Un filigrane invisible est intégré au niveau des pixels ou du spectre audio, permettant la détection automatique du contenu généré. Le modèle Nano Banana 2 (février 2026) intègre SynthID avec des métadonnées C2PA.

Thinking et la question de la transparence

Les modèles avec mode de pensée (séries 2.5/3) peuvent renvoyer des thought summaries — des résumés brefs du raisonnement interne plutôt que le flux complet des tokens intermédiaires. Cela offre un certain niveau de transparence, mais a été critiqué car les chaînes de raisonnement « brutes » réelles sont masquées derrière des résumés simplifiés.

Aspects réglementaires

Dans le cadre de la Loi européenne sur l'intelligence artificielle (EU AI Act), Google a signé le Code de pratiques de l'UE sur l'IA (publié le 10 juillet 2025) aux côtés d'OpenAI et d'Anthropic. Gemini est classé comme un modèle d'IA à usage général (GPAI) présentant un risque systémique, ce qui entraîne des obligations de sécurité supplémentaires (en vigueur depuis le 2 août 2025).

Paysage concurrentiel

La période de novembre à décembre 2025 est devenue le cycle concurrentiel le plus condensé de l'histoire de l'IA : Gemini 3 Pro (18 novembre), Claude Opus 4.5 d'Anthropic (24 novembre) et GPT-5.2 d'OpenAI (11 décembre) ont tous été lancés en l'espace de 24 jours. En février 2026, aucun modèle ne domine dans toutes les catégories : Gemini 3 Pro est en tête du LMArena en texte, vision, recherche et multilingue ; GPT-5.2 domine en mathématiques pures (100 % AIME 2025 sans outils) et SWE-bench Pro ; Claude Opus 4.5 est compétitif sur SWE-bench Verified. En termes de tarification de l'API, Gemini est environ 42 % moins cher que GPT-5 pour des appels comparables.

Indicateurs commerciaux

Selon le rapport de résultats d'Alphabet pour le T4 2025 (publié le 4 février 2026) : le chiffre d'affaires de Google Cloud s'est élevé à 17,7 milliards de dollars pour le trimestre (+48 % en glissement annuel) ; la marge opérationnelle était de 29,9 % ; le carnet de commandes Cloud a atteint 240 milliards de dollars (doublé en un an). Plus de 120 000 entreprises utilisent Gemini. En janvier 2026, Apple a annoncé ses plans d'intégrer Gemini dans Siri. Google traite plus de 10 milliards de tokens par minute via l'API. Les agents IA internes de Google génèrent environ 50 % du code propre de l'entreprise. Les dépenses d'investissement pour 2026 sont prévues entre 175 et 185 milliards de dollars (près du double des 91,45 milliards de 2025).

Liens externes

Références

Rapports techniques primaires de Gemini

  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
  • Gemini Team, Google (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
  • Comanici, G. et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.

Modèles spécialisés et applications

  • Saab, K. et al. (2024). Capabilities of Gemini Models in Medicine. arXiv:2404.18416.
  • Yang, L. et al. (2024). Advancing Multimodal Medical Capabilities of Gemini. arXiv:2405.03162.
  • Gemini Robotics Team (2025). Gemini Robotics: Bringing AI into the Physical World. arXiv:2503.20020.
  • Feng, T., Trinh, T., Bingham, G. et al. (2026). Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems. arXiv:2601.22401.
  • DeepMind Research Team (2026). Building Production-Ready Probes For Gemini. arXiv:2601.11516.
  • Fu, Y., Wang, X., Tian, Y., Zhao, J. (2025). Deep Think with Confidence. arXiv:2508.15260.

Littérature de référence (revues et méthodes)

  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
  • Cai, W. et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Dai, Z. et al. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. arXiv:1901.02860.
  • Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
  • Yin, S. et al. (2024). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
  • Wang, X. et al. (2023). Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey. arXiv:2302.10035.
  • Chen, Q. et al. (2025). Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models. arXiv:2503.09567.

Publications officielles du blog de Google