Chinchilla (language model) — 龙猫
Chinchilla(龙猫)是由研究团队 DeepMind 开发的一款大型语言模型(LLM),于2022年3月发布[1]。该模型包含约700亿个参数,并在一个包含1.4万亿词元(token)的文本语料库上进行了训练。
Chinchilla 的一个关键特点是其计算最优的训练方法。与以往主要关注增加参数数量的模型不同,Chinchilla 的创建基于一个假设,即模型大小和训练数据量需要按比例扩展。得益于这种方法,Chinchilla 在广泛的语言任务上表现优于参数量远大于自身的模型,例如 Gopher(2800亿参数)和 GPT-3(1750亿参数)[2]。
背景与创建历史
Chinchilla 的开发是 DeepMind 基于 Gopher 模型家族进行 LLM 扩展研究的成果[3]。于2021年发布的 Gopher 模型拥有2800亿参数,但其训练语料库相对较小,仅有3000亿词元。当时,行业内的主流观点认为,模型的性能主要通过增加其规模(参数数量)来提升,而数据量则保持相对稳定。
计算最优训练假说
DeepMind 的研究人员提出一个假说,认为许多大型模型(包括 Gopher)相对于其规模而言训练不足(undertrained)。由于缺乏足够的训练数据,这些模型在给定的计算预算下未能达到其可能实现的最高性能[2]。
该假说的核心在于,为了最优化地利用计算资源,模型大小和训练数据量应按比例增加。换言之,当模型参数数量翻倍时,训练词元的数量也应大致翻倍[1]。这一结论与先前的研究相悖,因为那些研究是在数据量固定的情况下进行的,从而高估了增加模型大小的价值。
为了验证这一假说,DeepMind 团队进行了广泛的实验,在50亿到5000亿词元的数据集上训练了超过400个不同规模的模型。结果证实,并行扩展是最佳策略。基于这些发现,Chinchilla 模型被开发出来,作为对新范式的实践检验[4]。
架构与训练
架构特点
Chinchilla 属于自回归 Transformer 家族,其架构与 GPT-2/GPT-3 模型相似[3]。它继承了 Gopher 的许多设计,但在关键方面有所不同,旨在减小模型规模的同时保持网络深度:
- 参数:约700亿参数,分布在80个层中。
- 模型宽度:自注意力头的数量减少到64个(Gopher为128个),层的内部维度减少到8192(Gopher约为16384)。
- 优化器:使用 AdamW 代替 Adam,这改善了在大型数据集上的收敛性[3]。
这种架构使得 Chinchilla 能够在参数数量显著减少的情况下,保持与 Gopher 相同的网络深度,从而降低了对内存和计算资源的需求。
扩展与训练数据
为了验证假说,Chinchilla 的训练使用了与 Gopher 相同的计算预算,但将资源重新分配,更侧重于数据。这个拥有700亿参数的模型在一个包含1.4万亿词元的语料库上进行训练,数据量约是 Gopher 的4倍[1]。
这个比例,即每个参数约20个词元,被称为“Chinchilla点”(Chinchilla Point),并成为现代 LLM 计算最优训练的一个参考基准[5]。实验证实,由于 Chinchilla 的训练更接近这一最优极限,它比那些虽然更大但训练不足的模型更能充分发挥其潜力。
结果与性能
在一系列广泛的标准测试中,Chinchilla 表现出比以往模型显著的优势。它不仅轻松超越了 Gopher,还超过了当时其他先进的 LLM,包括 OpenAI GPT-3(1750亿参数)和 Megatron-Turing NLG(5300亿参数)[1]。
最具代表性的成果是在综合基准测试MMLU(Measuring Massive Multitask Language Understanding)上的表现,该测试评估模型在数百个不同任务中的知识和推理能力。Chinchilla 取得了67.5%的平均准确率,创下了同类模型的新纪录,比 Gopher 的结果高出7个百分点[4]。
除了高效性,Chinchilla 还展现了其经济性。较小的模型规模(700亿参数,而同类模型为1750亿以上)意味着其逻辑推理(inference)和微调(fine-tuning)所需的计算资源要少得多,这简化了其在实际应用中的部署。
意义与影响
关于 Chinchilla 的研究对大型语言模型的训练方法产生了深远影响。
- Chinchilla缩放定律(Chinchilla scaling laws):研究所揭示的模型大小与数据量之间的最优比例,已成为行业后续开发的准标准和指南。
- 焦点从模型大小转向数据:这项工作促使业界更加关注训练语料库的创建、清洗和扩展,而不仅仅是盲目增加参数数量。
- 在多模态系统中的应用:Chinchilla 被用作 DeepMind 多模态模型Flamingo的核心语言组件,该模型能够理解图像和文本[6]。
尽管 Chinchilla 模型本身未公开发布,但其在科学论文中发表的概念和成果改变了整个 LLM 领域的发展轨迹,为实现人工智能能力更高效、更均衡的增长指明了方向。
参考文献
- Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
- Loshchilov, I.; Hutter, F. (2017). Decoupled Weight Decay Regularization. arXiv:1711.05101.
- Shoeybi, M.; et al. (2019). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
- Kaplan, J.; et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Brown, T. B.; et al. (2020). Language Models are Few‑Shot Learners. arXiv:2005.14165.
- Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Rae, J.; et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv:2112.11446.
- Hoffmann, J.; et al. (2022). Training Compute‑Optimal Large Language Models. arXiv:2203.15556.
- Alayrac, J.‑B.; et al. (2022). Flamingo: A Visual Language Model for Few‑Shot Learning. arXiv:2204.14198.
- Hendrycks, D.; et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300.
注释
- ↑ 1.0 1.1 1.2 1.3 Hoffmann, J. et al. (2022). «Training Compute-Optimal Large Language Models». NeurIPS 2022. [1]
- ↑ 2.0 2.1 Wali, K. (2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine. [2]
- ↑ 3.0 3.1 3.2 Rae, J. et al. (2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446.
- ↑ 4.0 4.1 «Training Compute-Optimal Large Language Models». proceedings.neurips.cc.
- ↑ «What is the Chinchilla Point ("Chinchilla Optimal")?». Legal Genie.
- ↑ «Chinchilla (language model)». Wikipedia.