Google’s large language models — 谷歌大语言模型
谷歌大语言模型是一系列由谷歌(Google)旗下多个部门,包括 Google AI(前身为 Google Brain)和 DeepMind,开发的大型语言模型(LLM)。作为深度学习和 Transformer 架构领域的先驱之一,谷歌为现代 LLM 的发展做出了根本性贡献。这些模型的开发历史反映了从专门的语言理解系统到大规模多模态和智能代理系统的演进之路,这些系统构成了许多谷歌产品的核心,并引领着整个 AI 行业的发展方向。
谷歌模型的历史与演变
早期成就与神经网络翻译 (2011–2016)
谷歌 LLM 的开发基础是在 Google Brain 项目(2011年)中奠定的,该项目致力于应用深度神经网络。最早的突破之一是 Tomas Mikolov 创建的 Word2Vec 算法(2013年)。它能够将词语表示为反映其语义上下文的向量(嵌入),这成为神经网络理解语言的基础方法。
下一步是转向序列模型,例如 seq2seq(2014年),它构成了 Google 神经网络机器翻译(GNMT)(2016年)的基础。谷歌翻译转向基于 LSTM 的神经网络架构,显著提高了机器翻译的质量。与此同时,谷歌于2014年收购的子公司 DeepMind,通过 AlphaGo 系统战胜世界围棋冠军,展示了深度学习的强大实力,增强了人们对 AI 潜力的信心。
Transformer 革命与 BERT 的诞生 (2017–2018)
2017年,Google Brain 的研究人员在论文《Attention Is All You Need》中提出了 Transformer 架构。该架构基于自注意力(self-attention)机制,允许并行处理序列而非顺序处理,这成为 NLP 领域的一场革命,也为所有现代 LLM 奠定了基础。
在此成功的基础上,谷歌于2018年推出了 BERT(Bidirectional Encoder Representations from Transformers)模型。BERT 是第一个深度双向模型,能同时考虑词语左右两侧的上下文。这使其在多项语言理解任务(GLUE, SQuAD)上取得了创纪录的成绩,并树立了新的行业标准。BERT 发布了两个版本(拥有1.1亿参数的 BASE 和3.4亿参数的 LARGE),并开放了源代码和权重,从而促进了其广泛应用。自2019年起,BERT 开始用于谷歌搜索以更好地理解用户查询。
规模增长与对话模型时代 (2019–2022)
在 BERT 之后,谷歌继续在规模和架构上进行实验:
- T5 (Text-to-Text Transfer Transformer, 2019): 一个统一的模型,将所有 NLP 任务都视为“文本到文本”的转换。T5 在庞大的 C4(Colossal Clean Crawled Corpus)语料库上进行训练,并以多种规模(最高达110亿参数)公开发布。
- Meena (2020): 谷歌首个专门的对话模型,拥有26亿参数,在开放域对话方面表现出高质量。
- LaMDA (Language Model for Dialogue Applications, 2021): 一个对话模型系列(最高达1370亿参数),在庞大的对话语料库(1.56万亿词)上进行训练。LaMDA 旨在创建更自然、更有意义的对话,并在一位谷歌工程师声称其具有“感知能力”后为公众所熟知。
- Gopher 与 Chinchilla (DeepMind, 2021–2022): 与此同时,DeepMind 研究了缩放定律。Gopher 模型(2800亿参数)展示了规模如何影响质量。而 Chinchilla 模型(700亿参数)则证明,为实现最佳性能,最重要的不是参数数量的最大化,而是在模型大小和训练数据量之间取得适当的平衡。这一结论被称为“Chinchilla 定律”,并影响了整个行业训练 LLM 的策略。
超大规模与多模态模型时代 (2022年至今)
- PaLM (Pathways Language Model, 2022): 发布时是谷歌最大的密集(dense)模型,拥有 5400亿参数,在新的分布式基础设施 Pathways 上训练。PaLM 展示了突破性的逻辑推理能力,尤其是在使用 思维链(Chain-of-Thought, CoT)提示 技术时。在其基础上,创建了专门版本,如用于医疗领域的 Med-PaLM。2023年,发布了改进版 PaLM 2(约3400亿参数),成为更新后的聊天机器人 Bard 的核心。
- Gemini (2023年至今): 由 Google DeepMind 的联合团队创建的新一代模型。Gemini 从一开始就被设计为一个原生多模态系统,能够处理文本、代码、图像、音频和视频。发布了多个版本:
- Gemini Ultra: 用于复杂任务的最强大模型。
- Gemini Pro: 适用于广泛任务的通用模型。
- Gemini Nano: 用于在移动设备上运行的紧凑模型。
在2024-2025年,该系列扩展了 Gemini 1.5(上下文窗口高达100万 token)和 Gemini 2.0 版本,后者具备了智能代理能力。
架构与技术特点
基础:编码器、解码器与混合架构
谷歌根据任务的不同使用 Transformer 架构的各种变体:
- 编码器(Encoder-only): 如 BERT 这样的模型。它们完整地处理整个文本,并创建丰富的上下文表示。这类模型非常适合文本分析和理解任务(如分类、实体提取),但不适用于生成任务。
- 解码器(Decoder-only): 如 LaMDA 和 PaLM 这样的模型(类似于 GPT)。它们是自回归的,即逐个 token 预测文本。这是天然的生成器,非常适合文本续写、对话和问答。
- 编码器-解码器(Encoder-Decoder): 如 T5 和 GNMT 这样的模型。它们包含两部分:编码器处理输入序列,解码器生成输出序列。这是一种适用于翻译或摘要等转换任务的通用架构。
规模:参数、数据与基础设施
谷歌在 LLM 领域的成功很大程度上归功于三个因素:
- 模型规模: 系统性地将参数数量从数百万(BERT)增加到数千亿(PaLM、Gemini)。
- 数据规模: 能够访问世界上最大的数据语料库之一(谷歌网页索引、YouTube、Google Books),这使得模型能够在数万亿 token 上进行训练。
- 基础设施: 使用自有的专用芯片——张量处理单元(Tensor Processing Unit, TPU)——和分布式系统 Pathways,从而能够高效、稳定地训练超大型模型。
多模态与智能代理能力
谷歌最新的模型,尤其是 Gemini,正朝着深度多模态和智能代理能力的方向发展。
- 原生多模态意味着模型从一开始就被训练用于理解和结合不同类型的数据(文本、图像、音频),而不是简单地连接独立的模块。
- 智能代理能力(Agentic AI)指模型不仅能回应请求,还能为实现目标而自主规划并执行一系列动作(例如,调用搜索或计算器等外部工具)。
关键模型汇总表
| 模型 | 发布年份 | 参数量(估算) | 架构 | 主要特点 |
|---|---|---|---|---|
| BERT | 2018 | 1.1亿–3.4亿 | 编码器 | 双向上下文理解,在 NLP 任务上达到 SOTA 水平。 |
| T5 | 2019 | 6000万–110亿 | 编码器-解码器 | 适用于所有任务的统一“文本到文本”方法。 |
| LaMDA | 2021 | 1370亿 | 解码器 | 专注于开放、有意义的对话。 |
| PaLM | 2022 | 5400亿 | 解码器 | 在逻辑推理(思维链)方面取得突破,大规模训练。 |
| Chinchilla | 2022 | 700亿 | 解码器 | “计算最优”模型,证明了数据与参数平衡的重要性。 |
| Gemini 1.0 | 2023 | 高达约1万亿 (Ultra) | 多模态(可能为 MoE) | 原生多模态,在多个基准测试(MMLU)上达到 SOTA 水平。 |
| Gemini 1.5 | 2024 | 未披露 | 多模态 (MoE) | 上下文窗口高达 100-200 万 token,效率高。 |
| Gemini 2.0 | 2024 | 未披露 | 多模态 + 工具 | 内置智能代理能力,可生成图像/音频。 |
在产品与生态系统中的应用
谷歌正积极地将其 LLM 集成到整个产品线中:
- Google 搜索: BERT、MUM 和 Gemini 被用于更好地理解复杂查询,并以 AI Overviews(前身为 SGE)的形式提供直接答案。
- Google Assistant 和 Bard(现为 Gemini): 从简单的语音命令转变为基于 LaMDA、PaLM 2 和 Gemini 的功能完善的对话式助手。
- Google Workspace: Duet AI(现为 Gemini for Workspace)功能帮助用户在 Gmail 中撰写邮件,在 Docs 中创建文档,以及在 Slides 中生成演示文稿。
- Android: Gemini Nano 支持在 Pixel 等设备上本地运行 AI 功能,以提高隐私性和速度。
- Google Cloud AI: Vertex AI 平台通过 API 为企业提供 PaLM 和 Gemini 模型,用于创建自己的应用程序。
在竞争环境中的角色
谷歌是“AI 竞赛”中的关键参与者之一,其主要竞争对手是 OpenAI(由微软支持)和 Meta。
- 与 OpenAI 的竞争: 尽管谷歌在许多基础技术(包括 Transformer)上是先驱,但 ChatGPT 在2022年底的推出促使谷歌加快了其产品(如 Bard)的上市步伐。竞争主要围绕模型质量(Gemini Ultra vs. GPT-4)、上下文窗口大小和 API 的便利性展开。
- 与 Meta 的对比: Meta 选择了开源路线(LLaMA 模型),为谷歌和 OpenAI 的闭源模型创造了一个强大的替代方案。作为回应,谷歌也开始发布开源模型,如 Gemma,以支持开发者社区,避免将生态系统让给 Meta。
- 战略联盟: 谷歌投资于其他参与者,例如初创公司 Anthropic(Claude 模型的创建者),以实现方法的多样化并巩固其在云竞争中的地位。
参考文献
- Vaswani, A. et al. (2017). Attention Is All You Need. NIPS.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR.
- Thoppilan, R. et al. (2022). LaMDA: Language Models for Dialog Applications. arXiv:2201.08239.
- Hoffmann, R. et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556.
- Chowdhery, A. et al. (2022). PaLM: Scaling Language Modeling with Pathways. JMLR.
- Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
外部链接