Gemma (Google) — Gemma 模型
Gemma是由Google(其Google DeepMind部门)开发和发布的一系列开放可用的语言模型。Gemma模型系列基于与旗舰级Gemini系列相同的研究和技术基础,定位为其轻量化、高性能版本[1]。其名称源自拉丁语gemma,意为“宝石”[2]。
Gemma属于开放模型 (open models)类别:Google公布了模型的权重,允许研究人员和开发人员在遵守负责任使用条款的前提下,自由使用、再训练和分发这些模型,包括用于商业项目[2]。这与只能通过云API访问的Gemini模型有本质区别。Gemma模型不仅能在数据中心运行,还能在消费级硬件(如笔记本电脑、带GPU的台式机)上本地运行[3]。
开发与发布
Gemma系列包括几代模型,每一代都在架构、性能和功能上有所改进。
第一代:Gemma 1
第一版Gemma于2024年2月21日发布[4]。它包含两款基于仅解码器Transformer架构的文本模型:
- Gemma 2B(20亿参数)
- Gemma 7B(70亿参数)
发布时,Google声称这些模型在关键基准测试中的表现优于体量远大于自身的同类模型[2]。初始模型主要为英语模型,但在包含网页文档、软件代码和数学问题在内的多样化数据上进行了训练[1]。两款模型都发布了两种版本:基础版(pre-trained)和指令微调版(instruction-tuned),后者能更好地遵循用户指令[2]。
第二代:Gemma 2
Gemma 2于2024年6月27日发布,带来了显著改进[1]。
- 模型规模:发布了90亿和270亿参数的模型。较小的版本采用了从较大模型中进行知识蒸馏的方法来提升质量[5]。
- 上下文窗口:大幅扩展至80,000个token(第一版为8192个)[6][7]。
- 架构改进:引入了分组查询注意力 (grouped-query attention)机制和交替的局部与全局注意力方案,以高效处理长上下文[1]。
第三代:Gemma 3
Gemma 3于2025年3月推出,是该系列发展的下一步,重点关注多模态能力和更广泛的任务覆盖[6]。
- 多模态能力:模型在支持文本的同时,增加了对图像和视频的输入支持。
- 规模与语言:模型系列涵盖四种规模(1B、4B、12B、27B),并支持多达140种语言[6]。
- 上下文窗口:增加至128,000个token[6]。
根据Google的数据,Gemma 3 27B的表现达到了当时顶级开放模型的水平,在排行榜上仅次于DeepSeek-R1等专用模型[6]。
架构与技术特点
Gemma模型基于Transformer架构的“仅解码器”(decoder-only)配置,类似于GPT模型[7]。这意味着模型以自回归的方式生成文本,即基于所有先前的token来预测下一个token。关键技术决策包括:
- 旋转位置嵌入 (RoPE):使用RoPE代替绝对位置嵌入,从而有效编码位置信息。
- 多查询与分组查询注意力 (Multi-query and Grouped-query attention):为加速并节省内存,较小的模型(如Gemma 2B)采用多查询注意力(所有注意力头共享一个键/值对)。Gemma 2中引入了分组查询注意力机制,将查询分为数组,这是在速度与质量之间的折衷方案[1][7]。
- 交替注意力方案:在Gemma 2中实现了一种方案,其中全局自注意力层与有限“滑动窗口”的注意力层交替出现,从而能够高效处理长上下文[1]。
模型家族与变体
除通用的基础模型外,Google还发布了多个针对特定任务优化的Gemma衍生版本。
- CodeGemma:用于生成和补全程序代码的模型,支持C++、C#、Go、Java、JavaScript、Python、Rust等语言[1]。
- DataGemma:一个模型系列,使用RAG技术进行了微调,以便与外部数据集成。该模型能够对数据库(如Google Data Commons)执行搜索查询,以提高回答的事实准确性[1]。
- PaliGemma:一款多模态模型,能够接收图像和文本作为输入。它专为视觉问答任务设计,如图像描述和对象识别[1]。
- RecurrentGemma:一个采用Griffin混合架构的实验性变体,结合了局部注意力和线性循环连接。这使得长序列的生成速度显著加快[7]。
- MedGemma:专为医疗领域设计的Gemma 3版本。包括用于分析医学图像(X射线、切片)和临床文档的多模态(4B)及文本(27B)模型。这些模型作为开放模型分发,但未经额外验证,不适用于直接临床应用[8]。
- DolphinGemma:一个应用Gemma技术解码海豚通信的研究项目。该模型基于多年的录音进行训练,用于识别动物语言中的模式[9]。
可用性与应用
Gemma模型可在Kaggle和Hugging Face平台上获取,并已集成到Google Colab和Vertex AI Model Garden服务中[2]。为加速推理,Google与NVIDIA合作,对模型进行了TensorRT适配。Gemma的许可条款允许商业用途和修改模型,这使其区别于其他一些开放项目。其分发受Responsible AI License许可证的约束,该许可证限制其在特定领域(如武器开发)的使用,并要求衍生产品遵守安全和道德的AI应用原则[3]。
安全性与责任
考虑到模型的开放性,开发人员对安全问题给予了高度重视。
- 数据过滤:在准备训练数据集时,自动过滤了个人数据和其他敏感信息,以降低泄露风险[2]。
- 对齐 (Alignment):指令微调版本的模型经过了多阶段对齐,使用了监督式微调 (Supervised Fine-Tuning, SFT)和RLHF(基于人类反馈的强化学习)等技术,以巩固偏好的响应风格[1]。
- 红队演练 (Red Teaming):发布前,模型经过了深入的抗恶意请求测试。专家试图诱导模型生成危险或不良内容,以识别其漏洞[3]。
- Responsible AI Toolkit工具包:Google随模型一同发布了一套工具,以促进安全部署,其中包括用于分析模型内部状态的Gemma Debugger实用程序和不良内容分类器[2]。
- ShieldGemma:一个专门的过滤器模型,旨在防止Gemma的多模态版本生成不安全内容[6]。
链接
文献
- Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
- Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
- Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
- Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
- Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
- Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
- Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.
注释
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 «What Is Google Gemma?». IBM. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 «Gemma: Google introduces new state-of-the-art open models». Google Developers Blog. [2]
- ↑ 3.0 3.1 3.2 «Google's open-source Gemma AI models draw from the research behind Gemini». The Verge. [3]
- ↑ «Google launches two new open LLMs». TechCrunch. [4]
- ↑ «Gemma 2: Improving Open Language Models at a Practical Size». Google.
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 «Google unveils open source Gemma 3 model with 128k context window». VentureBeat. [5]
- ↑ 7.0 7.1 7.2 7.3 «Gemma explained: An overview of Gemma model family architectures». Google Developers Blog. [6]
- ↑ «Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis». InfoQ. [7]
- ↑ «Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back». Smithsonian Magazine. [8]