LLaMA (Meta AI) — 大型语言模型Meta AI
LLaMA (Large Language Model Meta AI) 是由Meta AI研究部门开发的一个主要为开源的大型语言模型 (LLM) 家族。LLaMA模型建立在经过修改的Transformer架构之上,其设计重点是高计算效率、普及先进AI技术的访问权限,以及易于针对特定任务进行调整。该模型家族从最初的研究版本LLaMA 1(2023年2月)演变至多模态模型LLaMA 4(计划于2025年发布)。
命名
缩写词 LLaMA 的全称是 Large Language Model Meta AI(Meta AI大型语言模型)。
- Large Language Model — 强调模型的规模,其参数数量以数十亿至数万亿计。
- Meta AI — 指明开发者,即Meta的研究团队。
开发历史
LLaMA的开发始于2022年底,是Meta为应对OpenAI的ChatGPT取得成功而采取的战略举措。马克·扎克伯格组建了一个跨学科团队,其中包括来自FAIR实验室(Facebook AI Research)的研究人员。FAIR负责人Yann LeCun在该项目的理念中发挥了关键作用,他自2013年以来一直坚持实验室所有研究完全开放的原则。
第一个版本 LLaMA 1 于2023年2月以研究性许可证发布。发布后不久,即2023年3月,模型权重通过BitTorrent泄露到网络上。这一事件非但没有阻止项目的发展,反而出乎意料地推动了其进程,因为它为世界各地的独立研究人员和爱好者提供了实验该模型的机会。结果,Hugging Face平台上涌现了数以万计的衍生模型。从 LLaMA 2 开始的后续版本均以商业许可证发布[1],巩固了LLaMA作为开放AI模型市场关键参与者的地位。
模型演进与发布时间线
| 版本 | 发布日期 | 参数范围 | 关键创新与特点 |
|---|---|---|---|
| LLaMA 1 | 2023年2月 | 7B – 65B | 基础架构 (RMSNorm, SwiGLU, RoPE)。基于1.4万亿个token进行训练。上下文窗口为2048个token。研究性许可证。 |
| LLaMA 2 | 2023年7月 | 7B – 70B | 针对对话进行微调 (RLHF)。引入分组查询注意力 (GQA)。上下文窗口为4096个token。首个商业许可证。 |
| Code Llama | 2023年8月 | 7B – 70B | 代码专用版本。基于5000亿个代码token进行微调。变体:基础版、Python专用版、指令微调版。 |
| LLaMA 3 | 2024年4月 | 8B, 70B | 基于15万亿个token进行训练。改进的分词器,词汇量为12.8万个token。高性能(MMLU得分82%)。 |
| LLaMA 3.1 | 2024年7月[2] | 8B, 70B, 405B | 旗舰级405B模型,性能与GPT-4o相当。上下文窗口高达12.8万个token。增加了图像处理能力。 |
| LLaMA 4 | (计划:2025年4月) | 109B (Scout), 400B (Maverick), 2T (Behemoth) | 专家混合 (Mixture-of-Experts, MoE) 架构。原生多模态(文本、图像、视频)。上下文窗口高达1000万个token。 |
架构
LLaMA采用自回归的仅解码器Transformer架构,但引入了一系列关键改进,以提高计算效率和生成文本的质量:
- Pre-normalization (预归一化)。在每个Transformer子层的输入端而非输出端应用归一化。这种方法可以稳定超深网络的训练,并防止梯度问题。
- RMSNorm (均方根层归一化)。使用RMSNorm替代标准的LayerNorm。这种归一化技术省去了减去均值的操作,从而在保持稳定性的同时将计算速度提高了10–50%。
- SwiGLU (Swish门控线性单元)。使用SwiGLU作为激活函数,替代了ReLU或GELU。这种门控机制 (gating mechanism) 能够产生更平滑的梯度流,并提升模型质量。
- RoPE (旋转位置嵌入)。采用相对位置嵌入RoPE来编码token的位置,这使得模型能够更好地泛化到比训练时更长的序列。
- GQA (分组查询注意力)。在LLaMA 2中引入,该技术是多头注意力机制的一种优化,显著降低了内存需求并加快了文本生成速度。
- Mixture-of-Experts (MoE, 专家混合模型)(计划用于LLaMA 4)。这种架构将模型参数划分为多个“专家”子网络,并为每个请求仅激活其中一小部分。这极大地降低了推理的计算成本。
LLaMA 1 配置
| 模型 | 参数 | 隐藏层维度 | 层数 | 注意力头数 | 训练数据量 |
|---|---|---|---|---|---|
| 7B | 6.7B | 4096 | 32 | 32 | 1.0T token |
| 13B | 13.0B | 5120 | 40 | 40 | 1.0T token |
| 33B | 32.5B | 6656 | 60 | 52 | 1.4T token |
| 65B | 65.2B | 8192 | 80 | 64 | 1.4T token |
训练数据
训练语料库的规模从LLaMA 1的1.4万亿个token增长到LLaMA 3的15万亿个token。训练数据使用公开来源,包括Common Crawl(占数据高达67%)、C4、GitHub、Wikipedia、Books、ArXiv和Stack Exchange。对于LLaMA 3,还使用了高质量的私有数据。
性能与比较
- 基准测试:LLaMA 3.1 (405B) 模型的表现与GPT-4o相近:在MMLU测试中达到88.6%,仅比GPT-4o低0.1个百分点。在代码生成任务HumanEval上,LLaMA 3.1的得分为89%(GPT-4o为90.2%)。
- 参数效率:参数较少的LLaMA模型通常优于参数更多的竞争对手模型。例如,LLaMA 1 (13B) 在大多数测试中超过了GPT-3 (175B)。
- 成本:与使用专有API相比,本地托管LLaMA的推理成本可降低多达50倍,这使得该技术对中小型企业也具有可及性。
许可协议
- LLaMA 1 根据非商业研究许可证分发,需申请访问。
- LLaMA 2及后续版本 根据Llama社区许可证分发,该许可证允许商业使用和修改。但许可证包含限制:月活跃用户超过7亿的公司必须获得Meta的特别许可。这引发了关于LLaMA是否为完全开放模型的讨论。
应用
LLaMA模型已被集成到数千家公司的产品中,并应用于各个领域:
- 企业领域:Zoom在其AI Companion中使用LLaMA生成会议摘要;Shopify每天处理4000万至6000万次请求,用于丰富商品元数据;Instacart在其内部助手Ava中使用了该模型。
- 科学与社会:Meditron(LLaMA的改编版)被用于资源有限地区的医疗诊断。
- 政府与工业部门:Meta与洛克希德·马丁(Lockheed Martin)和Palantir建立了合作关系。NASA在国际空间站上使用LLaMA 3作为离线助手,在与地面失去联系时执行关键操作。
局限性与批评
- 偏见与安全:独立审计显示,尽管采取了安全措施,LLaMA模型仍可能复现有害的刻板印象。LLaMA 1权重的泄露加剧了人们对该技术可能被恶意使用的担忧。
- 知识空白:在高度专业化的领域,LLaMA可能会表现出知识空白。例如,在nephSAP医学测试中,其准确率为17-30%,而GPT-4为73%。
- 能源消耗:训练大型模型需要巨大的资源。训练LLaMA 1耗费了2638兆瓦时电力,相当于排放1015吨二氧化碳。
未来展望
Meta计划到2025年在AI基础设施上投资高达650亿美元。正在开发的 LLaMA 4 Behemoth 模型将拥有2万亿参数,支持超过200种语言,并与元宇宙产品进行深度集成。
参考文献
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Grattafiori, A. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
- Jiang, Z. et al. (2023). Pre‑RMSNorm and Pre‑CRMSNorm Transformers: Equivalent and Efficient Pre‑LN Transformers. arXiv:2305.14858.
- Rozière, B. et al. (2023). Code Llama: Open Foundation Models for Code. arXiv:2308.12950.
- Shazeer, N. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971.
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine‑Tuned Chat Models. arXiv:2307.09288.
- Zhang, B.; Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467.
注释
参见
- GPT
- 大型语言模型
- Transformer (神经网络架构)