DBRX (language model) — DBRX(语言模型)
DBRX 是一款由 Databricks 公司的 Mosaic AI 研究团队开发的开源大语言模型 (LLM)。该模型于2024年3月27日正式发布,定位为面向企业应用的高性能解决方案[1]。
DBRX 基于细粒度的专家混合 (Mixture of Experts, MoE) 架构构建,兼具高性能与高效率的训练和推理能力。在发布时,DBRX 在各大关键基准测试中表现优于所有其他开源模型,超越了 LLaMA 2、Mixtral 和 Grok-1 等模型,并展现出与 GPT-3.5 Turbo 等闭源模型相媲美的竞争力[2]。
开发历史
DBRX 的问世是 Databricks 发展开源生成模型战略的延续。2023年6月,Databricks 收购了专注于大模型训练的初创公司 MosaicML,并在此基础上成立了 Mosaic AI 部门[3]。
由首席神经网络架构师 Jonathan Frankle 领导的 Mosaic AI 团队着手开发一款新的大型 LLM,旨在达到与最优秀的专有系统相媲美的质量,但采用开放格式。该项目被命名为 DBRX。模型的开发和预训练耗时约2.5个月,成本估计约为1000万美元[3]。
架构
DBRX 是一款纯解码器 (decoder-only) Transformer 模型,并采用了细粒度 (fine-grained) 的专家混合 (MoE) 架构。
其主要架构特点如下:
- 总参数量:1320亿。
- 专家:模型由 16 个小型专业化子模型(即“专家”)组成。
- 激活机制:对于每个输入 token,仅激活 16 个专家中的 4 个。这意味着在推理过程中,只有 360亿 参数处于活动状态,从而确保了高速度和高效率。与 Mixtral 模型(8个专家,激活2个)相比,该方案提供了 65 倍以上的专家组合可能性[1]。
- 组件:采用了多种先进的架构设计,如旋转位置嵌入 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA)。
- 上下文长度:32,768个 token。
这种架构使模型能够结合海量参数(用于存储知识)的优势与较小模型(用于实现快速推理)的高效率。
训练
DBRX 的预训练是在一个精心筛选、规模达 12万亿 token 的数据集上进行的,该数据集由文本和代码组成。数据质量是重中之重:开发团队利用 Databricks 云平台(包括 Apache Spark、Databricks Notebooks 和 Unity Catalog)对数据进行清洗、准备和审核[1]。
训练过程中采用了课程学习 (curriculum learning) 方法,即在不同阶段改变数据类型的配比。例如,在训练的最后阶段,团队有控制地引入了复杂任务,据开发者称,这显著提升了模型质量。训练在由 3072 个 Nvidia H100 GPU 组成的集群上完成。
预训练之后,基础模型经过了额外的指令微调 (instruction tuning),以创建交互式版本 DBRX Instruct,该版本专门为执行用户指令进行了优化。
性能
发布时,DBRX 在多项基准测试中为开源 LLM 树立了新的质量标杆。
与开源模型的比较
| 基准测试 | 任务 | DBRX Instruct | 次优模型 (Mixtral/Grok-1) |
|---|---|---|---|
| Hugging Face Open LLM Leaderboard (AVG) | 通用知识 | 74.5% | 72.7% (Mixtral Instruct) |
| HumanEval | 编程 | 70.1% | 63.2% (Grok-1) |
| GSM8K | 数学推理 | 66.9% | 62.9% (Grok-1) |
| MMLU | 通用知识 | 73.7% | 71.5% (Mixtral Instruct) |
DBRX 在 Hugging Face Open LLM Leaderboard 综合排名和 Databricks LLM Gauntlet 综合测试中均位居榜首,与之前的模型相比表现出显著优势[1]。
与闭源模型的比较
DBRX Instruct 在多项关键指标上超越了 GPT-3.5 Turbo,包括 MMLU(73.7% vs 70.0%)和 HumanEval(70.1% vs 48.1%)。在某些基准测试(如 MTBench)中,该模型的回答质量已接近 Gemini 1.0 Pro 和早期版本的 GPT-4[1]。
训练与推理效率
- 训练效率:与同等质量的密集模型相比,MoE 架构的使用将所需的 FLOPS 降低了2-4倍。
- 推理效率:由于仅激活 360 亿参数,DBRX 的吞吐量(推理速度)比同等规模的密集模型(如 LLaMA2-70B)高出 2-3倍[1]。
许可与可用性
DBRX 采用专门制定的 Databricks Open Model License 许可证进行分发。该许可证允许自由使用和修改,包括商业用途,但包含一些限制。具体而言,与 LLaMA 2 许可证类似,如果基于 DBRX 的服务每月活跃用户超过 7亿,则需要获得 Databricks 的单独授权。
模型的预训练权重(基础版和 Instruct 版)可通过 Hugging Face 仓库下载[4]。
参考文献
- Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
- Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
- Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
- Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
- Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
- Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
- Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.
注释
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “Introducing DBRX: A New State-of-the-Art Open LLM”. Databricks Blog. [1]
- ↑ “Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok”. InfoWorld. [2]
- ↑ 3.0 3.1 “Databricks spent $10M on new DBRX generative AI model”. TechCrunch. [3]
- ↑ “databricks/dbrx-base”. Hugging Face. [4]