Gemini (Google) — 双子座

Google Gemini是由Google DeepMind研究部门开发的一系列多模态大语言模型（LLM）。Gemini模型于2023年12月首次推出，基于神经网络Transformer架构构建，原生支持多种模态数据的处理与生成，包括文本、图像、音频、视频和程序代码。

截至2026年2月，当前一代为Gemini 3.x系列。架构发展方向集中于集成推理时可扩展的推理机制（inference-time scaling）以及为在自主智能体系统（Agentic AI）中的应用而优化模型。Gemini应用程序拥有超过7.5亿月活跃用户。

命名与理念

"Gemini"一词源自拉丁语，意为双子座，象征着Google两大顶尖研究团队——Google Brain与DeepMind的合并。Google DeepMind联合技术负责人Jeff Dean在2024年5月的官方博客文章中证实了这一点："The twins here are the folks in the legacy Brain team and the legacy DeepMind team"。该项目最初代号为"Titan"；Dean于2023年4月提出了"Gemini"这一名称——正是Google Brain与DeepMind正式合并的同月。该名称还致敬了NASA的双子座计划（1965–1968），其在为阿波罗计划做准备中的角色引发了开发团队的共鸣。

Gemini的核心特征和哲学基础是原生多模态。与许多将多模态能力叠加在现有文本基础之上的前代模型不同，Gemini从一开始就被设计为能够同时理解、操作和组合不同类型的信息。Gemini 1.0技术报告（arXiv:2312.11805）确认该模型"trained jointly across image, audio, video, and text data"。这使得模型不仅能在模态之间转换数据，还能形成更深层次的整体性理解。

架构与关键技术

Gemini模型的能力由一系列基础性架构决策所决定。Google并未公布Gemini所有内部组件的完整底层设计；然而，公开来源可以确定其架构类别：1.5系列及以后的所有模型均为稀疏专家混合Transformer模型（sparse mixture-of-experts transformer-based models），具有原生多模态支持（由Gemini 2.5 Flash模型卡确认）。

原生多模态架构

Gemini的架构基于早期融合（early fusion）概念。图像的像素块（pixel patches）、视频时序帧、音频图谱和文本令牌被投射到统一的潜在空间中。Gemini 2.5技术报告将此方法描述为"统一多模态令牌交错"（Unified Multimodal Token Interleaving）。由于所有不同模态的令牌在共享序列中进行处理，标准的自注意力（self-attention）机制自然地在每一层实现跨模态数据整合。音频信号由专用编码器直接从音频波形（waveform）处理，保留了使用中间Speech-to-Text转录系统时会丢失的声学特征（语调、音色、背景噪声）。

对于Transformer类模型，基本运算是注意力机制：

$A t t e n t i o n (Q, K, V) = s o f t m a x (\frac{Q K^{⊤}}{\sqrt{d_{k}}}) V$

其中 $Q$ 为查询矩阵， $K$ 为键矩阵， $V$ 为值矩阵， $d_{k}$ 为键的维度。

稀疏专家混合（Sparse MoE）

从1.5版本开始，Gemini模型采用稀疏专家混合（Sparse Mixture-of-Experts, MoE）架构。Gemini 1.0使用的是稠密（dense）Transformer；向MoE的过渡在1.5版技术报告中有明确描述："This is our first release from Gemini 1.5, a new family… which incorporates a novel mixture-of-experts architecture"。

在MoE架构中，标准的全连接层（Feed-Forward Networks）被一组专门的子网络——"专家"所取代。对于输入令牌 $x \in ℝ^{d}$ ，输出 $y$ 计算为 $k$ 个活跃专家输出的加权和（ $k ≪ E$ ，其中 $E$ 为专家总数）：

$y = \sum_{i \in 𝒯_{k} (x)} g_{i} (x) E_{i} (x)$

其中 $E_{i} (x)$ 是第 $i$ 个专家的非线性函数， $𝒯_{k} (x)$ 是 $k$ 个被选中子网络的索引集合，路由权重 $g_{i} (x)$ 由学习到的路由函数（learned routing function）通过对前 $k$ 个最大值应用Softmax函数计算得出。

这种方法可以显著增加模型的总参数容量，同时保持较低的计算开销（FLOPs），因为每个令牌仅激活参数的一个子集。Google未披露Gemini模型的实际参数数量。

长上下文与上下文学习

Gemini 1.5实现了突破性进展，将上下文窗口扩展到生产模式下的100万个令牌（实验性测试可达1000万个令牌）。这比之前的模型（如GPT-4 Turbo的128,000个令牌）高出一个数量级。Google报告在100万令牌上下文长度下，Needle In A Haystack测试中取得了99%的成绩。对于后续世代，长上下文已成为该系列的关键特性之一。这种大规模上下文使模型能够：

在单次查询中分析整本书籍、数小时的视频（最长3小时）或大型代码库。
对提示词中提供的海量数据执行上下文学习（in-context learning），无需微调（fine-tuning）即可获得高度定制化的回答。

"思考模型"与推理时计算扩展

从Gemini 2.5开始，Google将thinking指定为一种独立的运行模式。官方文档将其定义为一种改善多步规划和推理的内部计算过程。2.5版本的模型（被描述为"thinking models"）能够在给出最终答案之前，在内部生成和评估中间推理步骤。这显著提高了在复杂逻辑和数学任务上的准确性。

需要区分两种机制：

内置思考（Thinking）：2.5和3系列模型的基础模式，生成隐藏的思维链（Chain-of-Thought）。API可以返回thought summaries——内部推理的简要摘要，而非完整的"原始思维"流。从3.1 Pro模型开始，思考预算通过thinking_level参数控制，取值范围为Low到Max。
Deep Think：一种独立的实验性增强推理模式，使用并行假设生成，需要显著更多的计算资源。于2025年5月20日在Google I/O上宣布，2025年8月1日向AI Ultra订阅用户开放。Deep Think不应与基础thinking机制混淆。

智能体能力（Agentic Capabilities）

从2.0版本开始，Gemini可以与外部世界交互：调用工具、执行Google搜索、运行代码和控制UI元素。Google明确将Gemini 2.0定位为面向"新智能体时代"（agentic era）的模型，具有原生工具使用（tool use）支持。

截至2026年2月，Gemini API包含一个正式建立的智能体能力层，支持以下工具：Google Search、Google Maps、Code Execution、URL Context、Computer Use、File Search，以及用于双向实时交互的Live API。

Gemini模型的演进

Gemini家族以极快的速度发展：从2023年12月到2026年2月，共发布了四个主要世代的模型。

Gemini 1.0（2023年12月）

第一代，奠定了原生多模态的基础。于2023年12月6日公开发布。

版本： Ultra（旗舰版，用于最复杂的任务）、Pro（通用模型）和Nano（用于移动设备的紧凑版本；细分为拥有18亿参数的Nano-1和32.5亿参数的Nano-2）。
上下文窗口： 所有版本均为32,768个令牌。
成就： Gemini 1.0 Ultra成为首个在MMLU基准测试中达到并超越人类专家水平的模型，取得90.04%的成绩（使用CoT@32技术——32次采样的思维链与多数投票；在标准5-shot提示下，成绩约为83.7%）。在32个学术基准测试中的30个取得了SOTA结果。
停止支持： Gemini 1.0 Pro于2025年2月18日被宣布弃用。

Gemini 1.5（2024年2月至5月）

在上下文长度和效率方面取得突破。

架构： 从稠密Transformer过渡到专家混合（MoE）。
上下文窗口： 生产环境中最高100万个令牌（1.5 Pro通过候补名单可获得200万，于2024年5月Google I/O上宣布）。
版本： 1.5 Pro（2024年2月发布；质量与1.0 Ultra相当但成本显著降低）和1.5 Flash（轻量快速版本，2024年5月添加）。
停止支持： 所有Gemini 1.5模型（Pro、Flash、Flash-8B）于2025年9月29日关停。

Gemini 2.0（2024年12月至2025年2月）

向"智能体时代"过渡。

时间线： 2024年12月11日——发布2.0 Flash Experimental（多模态输入、文本输出）；2025年2月5日——2.0 Flash全面可用（GA），发布2.0 Pro Experimental和2.0 Flash-Lite。
关键创新： 内置智能体能力（tool use）、原生图像和音频生成（最初为早期访问合作伙伴提供受限模式）、面向智能体场景。
上下文窗口： 最高200万个令牌（2.0 Pro）；最高100万个令牌（2.0 Flash-Lite）。
停止支持： 2.0 Flash和Flash-Lite模型计划于2026年6月1日关停。

Gemini 2.5（2025年3月至6月）

首个具有可配置推理预算的"思考模型"（thinking model）。

时间线： 2025年3月25日——发布2.5 Pro Experimental；4月17日——2.5 Flash（首个完全混合推理模型，思考功能可切换）；5月20日（Google I/O）——2.5 Pro和Flash更新，宣布Deep Think；2025年6月17日——2.5 Pro和2.5 Flash同时GA；同日——2.5 Flash-Lite预览版（7月22日GA）。8月1日——Deep Think向AI Ultra订阅用户开放。
关键创新： 内置"思考"（thinking）机制，具有可配置的预算；Deep Think作为独立的增强模式。在复杂数学、逻辑和编程基准测试中取得SOTA结果（AIME 2025——86.7%，GPQA Diamond——84.0%，Humanity's Last Exam——18.8%（无工具））。
上下文窗口： 100万个令牌输入，最高64,000个令牌输出。承诺的2.5 Pro 200万令牌扩展在模型生命周期内从未确认已实现。
专业变体： Gemini 2.5 Flash Image（代号"Nano Banana"，8月12日匿名出现在Arena上，2025年8月26日正式发布——因逼真的"3D人偶"图像走红，吸引1000万新用户）；Computer Use Preview（2025年10月7日，基于2.5 Pro）；文本转语音模型（2.5 Flash TTS、2.5 Pro TTS）。
技术报告： 合并版Gemini 2.X报告于2025年7月7日在arXiv上发布（arXiv:2507.06261），列出超过3,300名作者，涵盖2.5 Pro、2.5 Flash、2.0 Flash和2.0 Flash-Lite模型。

Gemini 3.x（2025年11月至2026年2月）

第三代标志着从基础生成向长时间智能体工作流（agentic workflows）和跨学科科学问题求解的过渡。

Gemini 3 Pro（2025年11月18日）： 由Alphabet首席执行官Sundar Pichai和DeepMind首席执行官Demis Hassabis宣布为"Google最智能的模型"。首个在发布当天即部署到Google搜索的Gemini模型。首个突破LMArena 1,500 Elo关口的模型（发布时为1,501）。结果：GPQA Diamond——91.9%；SWE-bench Verified——76.2%；Humanity's Last Exam——37.5%（无工具）；SimpleQA——72.1%。
Gemini 3 Flash（2025年12月17日）： 成为Gemini应用的默认模型。以0.50美元/百万输入令牌的价格，在SWE-bench Verified上超越了3 Pro（78%），同时在推理任务上减少30%的令牌使用。GPQA Diamond——90.4%；HLE——33.7%。
Gemini 3.1 Pro（2026年2月19日）： 发布日期的旗舰模型。首个增量式".1"版本（之前的世代使用.5间隔）。关键结果——ARC-AGI-2：77.1%（超过3 Pro的31.1%的两倍）。AIME 2025——91.2%；GPQA Diamond——94.3%；SWE-bench Verified——80.6%。通过thinking_level参数引入了新的MEDIUM思考级别。专用端点gemini-3.1-pro-preview-customtools用于bash终端和自定义函数。解决了长生成中的输出截断问题。渠道：Gemini App、Vertex AI、AI Studio、Gemini API、NotebookLM。
Gemini 3 Deep Think（2026年2月12日更新）： 专业"思考"模式的重大更新。扩展到数学和编程之外：在2025年国际物理奥林匹克（IPhO）和化学奥林匹克（IChO）中取得金牌级成绩；ARC-AGI-2——84.6%；Humanity's Last Exam——48.4%；CMT-Benchmark（凝聚态理论物理）——50.5%；Codeforces Elo——3,455。基于Deep Think的研究智能体Aletheia自主解决了Erdős问题集中的多个未解问题（包括Erdős-1051猜想）。

Gemini世代总览表

Gemini模型关键特性的演进
世代	发布年份	关键版本	最大上下文窗口	关键架构创新与改进
Gemini 1.0	2023	Ultra、Pro、Nano	32,768个令牌	从零开始的原生多模态；稠密Transformer；在MMLU上超越人类专家（90.04% CoT@32）。
Gemini 1.5	2024	Pro、Flash	100万个令牌（候补名单200万）	专家混合（MoE）架构；革命性的上下文扩展；Needle In A Haystack 99%。
Gemini 2.0	2024–2025	Pro、Flash、Flash-Lite	100万–200万个令牌	"Agentic AI"时代：原生工具集成、图像和音频生成、Live API。
Gemini 2.5	2025	Pro、Flash、Flash-Lite	100万个令牌（输入）、64,000（输出）	"思考模型"（thinking model）；可配置的推理预算；Deep Think；图像生成（Nano Banana）；Computer Use。
Gemini 3.x	2025–2026	3 Pro、3 Flash、3.1 Pro、3 Deep Think	100万个令牌	智能体工作流；thinking_level参数；ARC-AGI-2和科学奥林匹克上的突破；Aletheia。

关键结果与基准测试

随着经典基准测试（如MMLU）趋于饱和，Gemini模型性能评估已转向抽象推理、科学建模和自主软件工程任务。结果基于Google官方数据（自报告）；比较仅在推理模式、工具使用的有无、采样方法（单次尝试vs.多数投票）和特定model-id均一致时才有效。

Gemini模型关键基准测试结果（截至2026年2月）
基准测试	任务描述	Gemini 2.5 Pro（2025年6月）	Gemini 3 Pro（2025年11月）	Gemini 3.1 Pro（2026年2月）	Gemini 3 Deep Think（2026年2月）
MMLU	多任务语言理解	—	—	—	—
GPQA Diamond	博士级别科学问题	84.0%	91.9%	94.3%	暂无
Humanity's Last Exam	专业领域前沿知识	18.8%	37.5%	44.4%	48.4%
ARC-AGI-2	抽象逻辑推理谜题	4.9%	31.1%	77.1%	84.6%
SWE-bench Verified	GitHub仓库自主问题解决	63.8%*	76.2%	80.6%	暂无
AIME 2025	奥林匹克级别数学问题	86.7%	—	91.2%	—
Codeforces（Elo）	竞赛编程评级	—	—	2,887	3,455

* 2.5 Pro在SWE-bench上的结果是使用自定义智能体配置（custom agent setup）获得的。

LMArena排名（2026年2月下旬快照）

LMArena（原Chatbot Arena）是一个独立的盲评配对投票平台。排名动态重新计算；模型发布日期的数值可能与当前值不同。

Overall（快照：2026年2月24日）
模型	评分	排名	投票数	备注
Gemini 3.1 Pro Preview	1,500 ± 9	#3	4,060	初步
Gemini 3 Pro	1,486 ± 4	#5	37,854
Gemini 3 Flash	1,473 ± 5	#7	28,847
Gemini 2.5 Pro	1,464 ± 3	#9	97,296
Gemini 2.5 Flash	1,411 ± 3	#64	96,163

2025年11月18日发布时，Gemini 3 Pro达到了1,501 Elo的评分，成为首个在LMArena上突破1,500大关的模型。

专业化系统与智能体

Gemini生态系统已扩展了能够在数字和物理环境中执行多步操作的模型和平台。

自主智能体

Jules——一种在安全云端虚拟机中异步运行的自主编码智能体。它在GitHub上创建分支和拉取请求。2025年5月20日在Google I/O进入公开测试（测试期间完成超过140,000次代码改进）；2025年8月6日正式发布（GA）。到2025年底，它已成为Google内部仓库的最大贡献者之一。
Project Mariner——一个基于浏览器的智能体研究原型，用于多步网页任务。迁移到支持最多10个并行任务的云端虚拟机，并具有"Teach & Repeat"功能。在WebVoyager基准测试中达到83.5%。Computer Use功能已移植到Gemini API。
Google Antigravity——2025年11月推出的用于管理AI智能体的集成开发环境（IDE）。智能体自主修改代码，与终端和内置浏览器交互，返回可验证的产物（如代码diff）供开发者审批。
Aletheia智能体——基于Gemini 3 Deep Think的专业数学研究智能体。配备自然语言验证模块和用于文献检索的网络搜索工具。2026年初，它自主解决了Erdős问题集中的多个未解数学问题，并合著了科学论文。

消费级AI智能体

Phone Automations——在Android操作系统层面集成的自主智能体（Pixel 10和Samsung Galaxy S26的测试版）。在安全沙箱中运行，能够基于视觉GUI分析在第三方应用中导航。
Gemini in Chrome（Auto Browse）——用于自动化多步网页任务的浏览器智能体，自2025年9月起面向所有Chrome用户开放（2026年1月更新至Gemini 3）。

Computer Use

Gemini 2.5 Computer Use模型专为控制图形用户界面（GUI）而优化。系统以屏幕截图和操作历史作为输入，生成 $(x, y)$ 坐标用于程序化光标模拟和键盘输入命令。

Gemini Robotics

2025年3月推出的Vision-Language-Action（VLA）和Embodied Reasoning（ER）类模型。这些架构处理时空信息，并将机器人操纵器的3D运动轨迹预测作为原生输出模态（arXiv:2503.20020）。

专业生成模型（2026年初）

Nano Banana 2（Gemini 3.1 Flash Image）——2026年2月26日发布；一种结合Flash架构速度与Pro级质量的视觉模型。在不同场景中提供严格的角色一致性、图像内原生文字排版生成，以及集成SynthID加密水印与C2PA元数据。
Lyria 3——2026年2月18日集成到Gemini应用的音乐模型。可根据文本提示词、上传的照片或视频生成30秒的音乐作品（包括人声和乐器）。
Veo 3.1——视频生成模型。支持使用最多三张参考图像创建片段（"Ingredients to Video"）、在指定首尾帧之间生成过渡、原生竖屏视频渲染（9:16）以及升频至4K分辨率。
Med-Gemini——医疗领域专用模型（arXiv:2404.18416, arXiv:2405.03162）。

应用与生态系统

Google将Gemini深度集成到其消费产品和开发者平台中。

消费产品

Gemini应用：聊天机器人（前身为Bard，2024年2月8日更名），使用Gemini系列模型作为通用AI助手。截至2026年2月，拥有超过7.5亿活跃用户。当前部署包含3.1 Pro模型。订阅：Google AI Pro（每月19.99美元，取代Google One AI Premium）和Google AI Ultra（每月249.99美元，可访问Deep Think、Veo 3和优先功能）。
Google Workspace：Gemini集成到Gmail、Docs、Sheets和Meet中，提供写作辅助、数据分析和内容生成（从Duet AI更名）。
Google搜索：AI Overviews功能使用专门的Gemini模型对复杂查询生成摘要式回答。2025年Google I/O上推出的AI Mode提供具有智能体能力的深度搜索（预订、购物）。
Android和Pixel：Gemini Nano（v3运行于搭载Tensor G5芯片的Pixel 10上，2025年8月）在智能手机上本地运行，提供智能回复、摘要、诈骗电话检测和无障碍功能，同时保护数据隐私。面向开发者的ML Kit GenAI API支持设备端摘要、校对和语音识别。
NotebookLM：从笔记工具发展为完整的创意平台。2025年3月加入Google Workspace。支持交互式Audio Overviews、Video Overviews、思维导图、幻灯片和信息图。2025年12月升级至Gemini 3；2026年2月起聊天功能支持完整的100万令牌上下文窗口。
Gemini Live：Project Astra的摄像头和屏幕共享功能向所有Android和iOS用户免费开放。

开发者平台

Google AI Studio和Gemini API：通过API访问Gemini模型的主要接口。截至2026年2月，支持能力模块：Thinking、Thought signatures、Long context、Tools and agents（Google Search、Maps、Code Execution、URL Context、Computer Use、File Search、Deep Research、Live API）。
Vertex AI：企业平台，具有增强的安全和管理功能。
Google Gen AI SDK：2025年5月在Python、JavaScript/TypeScript、Go和Java上达到GA，提供对Gemini开发者API和Vertex AI的统一访问。支持Model Context Protocol (MCP)。
Gemini CLI：终端中的AI编程命令行工具（2025年6月推出）。
Interactions API：模型和智能体的统一接口（2025年12月起为测试版）。

API生命周期与版本管理

API中的Gemini模型分为stable、preview、latest和experimental类别。特定的model_id与模型系列不是同一概念；对于生产场景，绑定到具体版本及其支持时间表至关重要。API文档维护着一份包含关停日期的弃用注册表。

为支持长时间运行的自主任务，引入了：Session Resumption（服务器端会话状态存储，最长24小时）和Context Compression（滑动窗口机制，在超出限制时自动压缩上下文）。

2025年12月，Google在未事先通知的情况下将免费层API配额削减约92%，引发了开发者社区的强烈反应。与此同时，通过模型优化，Gemini的单位服务成本在2025年全年下降了78%。

局限性与开放问题

幻觉与虚构： 模型仍存在生成事实错误信息的倾向，尤其是在接地功能（Search Grounding）被禁用时。Gemini 3.1 Pro在SimpleQA基准测试中相比之前版本降低了幻觉率，但该问题对所有LLM仍具有系统性。
潜意识剽窃（Subconscious Plagiarism）： 对Aletheia智能体的实验揭示了一个问题，即模型从其训练集中复现非平凡的证明，并将其呈现为自主发现，这给AI研究中的新颖性验证带来了困难。
长上下文退化： 在处理100万个令牌或更长的上下文时，模型容易出现"Lost in the Middle"效应——对位于文档中间的事实提取准确率下降。
高计算成本： 使用Deep Think最大设置进行推理需要显著更多的时间和资源（TPU），限制了在同步实时场景中的应用。
误拒绝（Over-refusals）： 由于严格的对齐（alignment）算法，推理模型倾向于错误地将合法请求分类为潜在危险而拒绝（特别是在代码分析和信息安全的上下文中）。模型卡还指出了拒绝时"说教式"（preachy）语气的问题。
推理局限性： 2.5和3系列的模型卡列出了在因果理解（causal understanding）、复杂逻辑推理（complex logical deduction）和反事实推理（counterfactual reasoning）方面的局限性，以及在遵守思考预算方面的不完全可预测性。

伦理方面与安全

Gemini模型的部署配有多层次安全体系。

通用框架

安全AI框架（SAIF）是Google对AI系统安全的总体方法（2023年6月发布），构成了开发背景但并非Gemini特定的标准。前沿安全框架v3（2025年9月）涵盖CBRN、网络安全、ML研发、有害操纵以及对错位（misalignment）风险的探索性方法。

Gemini特定措施

模型卡（Model cards）是特定模型局限性和安全信息的主要来源。包含预期用途与局限性、伦理与内容安全以及前沿安全等章节。Gemini 3 Pro的模型卡确认该模型在CBRN和网络安全领域未达到任何关键能力水平（Critical Capability Level）。
偏见和毒性测试： 分析和缓解训练数据和内容生成中的偏见。
红队测试（Red Teaming）： 模拟攻击以识别漏洞和不良行为。独立的错位测试发现"情境意识有一定增加"但无关键风险。

安全探针（Safety Probes）

为防止生成有害内容，采用隐藏激活分类。为解决长上下文中的信号丢失问题，采用MultiMax架构：探针在所有层 $H$ 中对序列 $n_{i}$ 中的每个令牌 $j$ 提取最大值：

$f_{MultiMax} (S_{i}) = \sum_{h = 1}^{H} \max_{j \in [n_{i}]} [v_{h}^{⊤} y_{i, j}]$

探针与基础模型组合成级联分类器，以较低的计算成本提高过滤精度（arXiv:2601.11516）。

加密水印（SynthID）

通过Live API生成的音频数据和图像（来自Nano Banana/Flash Image模型）使用SynthID算法进行标记。在像素或音频频谱级别嵌入不可见水印，实现对生成内容的机器检测。Nano Banana 2模型（2026年2月）将SynthID与C2PA元数据集成。

Thinking与透明度问题

具有思考模式的模型（2.5/3系列）可以返回thought summaries——内部推理的简要摘要，而非完整的中间令牌流。这提供了一定程度的透明度，但因实际的"原始"推理链被隐藏在简化摘要背后而受到批评。

监管方面

根据欧盟人工智能法案（EU AI Act），Google与OpenAI和Anthropic一起签署了欧盟AI实践守则（2025年7月10日发布）。Gemini被归类为具有系统性风险的通用人工智能（GPAI）模型，这带来了额外的安全义务（自2025年8月2日起生效）。

竞争格局

2025年11月至12月成为AI历史上最密集的竞争周期：Gemini 3 Pro（11月18日）、Anthropic的Claude Opus 4.5（11月24日）和OpenAI的GPT-5.2（12月11日）均在24天内发布。截至2026年2月，没有单一模型在所有类别中占据主导地位：Gemini 3 Pro在LMArena的文本、视觉、搜索和多语言方面领先；GPT-5.2在纯数学（AIME 2025 100%无工具）和SWE-bench Pro方面领先；Claude Opus 4.5在SWE-bench Verified方面具有竞争力。在API定价方面，Gemini比GPT-5便宜约42%。

商业指标

根据Alphabet 2025年第四季度财报（2026年2月4日发布）：Google Cloud季度收入为177亿美元（同比增长48%）；营业利润率为29.9%；Cloud订单积压达2,400亿美元（同比翻番）。超过120,000家企业使用Gemini。2026年1月，苹果宣布计划将Gemini集成到Siri中。Google每分钟通过API处理超过100亿个令牌。Google的内部AI智能体生成了公司约50%的自有代码。2026年资本支出计划为1,750亿至1,850亿美元（几乎是2025年914.5亿美元的两倍）。

外部链接

参考文献

Gemini主要技术报告

Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
Gemini Team, Google (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
Comanici, G. et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.

专业模型与应用

Saab, K. et al. (2024). Capabilities of Gemini Models in Medicine. arXiv:2404.18416.
Yang, L. et al. (2024). Advancing Multimodal Medical Capabilities of Gemini. arXiv:2405.03162.
Gemini Robotics Team (2025). Gemini Robotics: Bringing AI into the Physical World. arXiv:2503.20020.
Feng, T., Trinh, T., Bingham, G. et al. (2026). Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems. arXiv:2601.22401.
DeepMind Research Team (2026). Building Production-Ready Probes For Gemini. arXiv:2601.11516.
Fu, Y., Wang, X., Tian, Y., Zhao, J. (2025). Deep Think with Confidence. arXiv:2508.15260.

背景文献（综述与方法）

Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
Cai, W. et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
Dai, Z. et al. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. arXiv:1901.02860.
Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
Yin, S. et al. (2024). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
Wang, X. et al. (2023). Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey. arXiv:2302.10035.
Chen, Q. et al. (2025). Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models. arXiv:2503.09567.

Google官方博客文章

Google (2023). Introducing Gemini: Google's most capable AI model yet. The Keyword, 2023年12月6日.
Google DeepMind (2024). Introducing Gemini 1.5. The Keyword, 2024年2月15日.
Google (2024). Introducing Gemini 2.0: A new AI model for the agentic era. The Keyword, 2024年12月11日.
Google DeepMind (2025). Gemini 2.0 model updates. The Keyword, 2025年2月5日.
Google DeepMind (2025). Gemini 2.5: Our newest Gemini model with thinking. The Keyword, 2025年3月25日.
Google DeepMind (2025). Google I/O 2025: Updates to Gemini 2.5. The Keyword, 2025年5月20日.
Google (2025). Gemini 3: Introducing the latest Gemini AI model. The Keyword, 2025年11月18日.
The Deep Think Team (2026). Gemini 3 Deep Think: Advancing science, research and engineering. Google Blog, 2026年2月12日.
The Gemini Team (2026). Gemini 3.1 Pro: A smarter model for your most complex tasks. Google Blog, 2026年2月19日.