Chinchilla (language model) — 龙猫

Chinchilla（龙猫）是由研究团队 DeepMind 开发的一款大型语言模型（LLM），于2022年3月发布^[1]。该模型包含约700亿个参数，并在一个包含1.4万亿词元（token）的文本语料库上进行了训练。

Chinchilla 的一个关键特点是其计算最优的训练方法。与以往主要关注增加参数数量的模型不同，Chinchilla 的创建基于一个假设，即模型大小和训练数据量需要按比例扩展。得益于这种方法，Chinchilla 在广泛的语言任务上表现优于参数量远大于自身的模型，例如 Gopher（2800亿参数）和 GPT-3（1750亿参数）^[2]。

背景与创建历史

Chinchilla 的开发是 DeepMind 基于 Gopher 模型家族进行 LLM 扩展研究的成果^[3]。于2021年发布的 Gopher 模型拥有2800亿参数，但其训练语料库相对较小，仅有3000亿词元。当时，行业内的主流观点认为，模型的性能主要通过增加其规模（参数数量）来提升，而数据量则保持相对稳定。

计算最优训练假说

DeepMind 的研究人员提出一个假说，认为许多大型模型（包括 Gopher）相对于其规模而言训练不足（undertrained）。由于缺乏足够的训练数据，这些模型在给定的计算预算下未能达到其可能实现的最高性能^[2]。

该假说的核心在于，为了最优化地利用计算资源，模型大小和训练数据量应按比例增加。换言之，当模型参数数量翻倍时，训练词元的数量也应大致翻倍^[1]。这一结论与先前的研究相悖，因为那些研究是在数据量固定的情况下进行的，从而高估了增加模型大小的价值。

为了验证这一假说，DeepMind 团队进行了广泛的实验，在50亿到5000亿词元的数据集上训练了超过400个不同规模的模型。结果证实，并行扩展是最佳策略。基于这些发现，Chinchilla 模型被开发出来，作为对新范式的实践检验^[4]。

架构与训练

架构特点

Chinchilla 属于自回归 Transformer 家族，其架构与 GPT-2/GPT-3 模型相似^[3]。它继承了 Gopher 的许多设计，但在关键方面有所不同，旨在减小模型规模的同时保持网络深度：

参数：约700亿参数，分布在80个层中。
模型宽度：自注意力头的数量减少到64个（Gopher为128个），层的内部维度减少到8192（Gopher约为16384）。
优化器：使用 AdamW 代替 Adam，这改善了在大型数据集上的收敛性^[3]。

这种架构使得 Chinchilla 能够在参数数量显著减少的情况下，保持与 Gopher 相同的网络深度，从而降低了对内存和计算资源的需求。

扩展与训练数据

为了验证假说，Chinchilla 的训练使用了与 Gopher 相同的计算预算，但将资源重新分配，更侧重于数据。这个拥有700亿参数的模型在一个包含1.4万亿词元的语料库上进行训练，数据量约是 Gopher 的4倍^[1]。

这个比例，即每个参数约20个词元，被称为“Chinchilla点”（Chinchilla Point），并成为现代 LLM 计算最优训练的一个参考基准^[5]。实验证实，由于 Chinchilla 的训练更接近这一最优极限，它比那些虽然更大但训练不足的模型更能充分发挥其潜力。

结果与性能

在一系列广泛的标准测试中，Chinchilla 表现出比以往模型显著的优势。它不仅轻松超越了 Gopher，还超过了当时其他先进的 LLM，包括 OpenAI GPT-3（1750亿参数）和 Megatron-Turing NLG（5300亿参数）^[1]。

最具代表性的成果是在综合基准测试MMLU（Measuring Massive Multitask Language Understanding）上的表现，该测试评估模型在数百个不同任务中的知识和推理能力。Chinchilla 取得了67.5%的平均准确率，创下了同类模型的新纪录，比 Gopher 的结果高出7个百分点^[4]。

除了高效性，Chinchilla 还展现了其经济性。较小的模型规模（700亿参数，而同类模型为1750亿以上）意味着其逻辑推理（inference）和微调（fine-tuning）所需的计算资源要少得多，这简化了其在实际应用中的部署。

意义与影响

关于 Chinchilla 的研究对大型语言模型的训练方法产生了深远影响。

Chinchilla缩放定律（Chinchilla scaling laws）：研究所揭示的模型大小与数据量之间的最优比例，已成为行业后续开发的准标准和指南。
焦点从模型大小转向数据：这项工作促使业界更加关注训练语料库的创建、清洗和扩展，而不仅仅是盲目增加参数数量。
在多模态系统中的应用：Chinchilla 被用作 DeepMind 多模态模型Flamingo的核心语言组件，该模型能够理解图像和文本^[6]。

尽管 Chinchilla 模型本身未公开发布，但其在科学论文中发表的概念和成果改变了整个 LLM 领域的发展轨迹，为实现人工智能能力更高效、更均衡的增长指明了方向。

参考文献

Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
↑ ^2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
↑ ^3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
↑ ^4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
↑ «Chinchilla (language model)». Wikipedia.

[hoffmann2022-1] 1.0 ^1.1 ^1.2 ^1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]

[wali2022-2] 2.0 ^2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]

[gopher2022-3] 3.0 ^3.1 ^3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.

[neurips_proc-4] 4.0 ^4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.

[legalgenie-5] «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.

[wiki_eng-6] «Chinchilla (language model)». Wikipedia.

[1]

[2]

[3]

[4]

[5]

[6]

Chinchilla (language model) — 龙猫

Contents

背景与创建历史

计算最优训练假说

架构与训练

架构特点

扩展与训练数据

结果与性能

意义与影响

参考文献

注释

Navigation menu

Chinchilla (language model) — 龙猫

背景与创建历史

计算最优训练假说

架构与训练

架构特点

扩展与训练数据

结果与性能

意义与影响

参考文献

注释

Navigation menu

Search