DBRX (language model) — DBRX(语言模型)

From Systems analysis wiki
Jump to navigation Jump to search

DBRX 是一款由 Databricks 公司的 Mosaic AI 研究团队开发的开源大语言模型 (LLM)。该模型于2024年3月27日正式发布,定位为面向企业应用的高性能解决方案[1]

DBRX 基于细粒度的专家混合 (Mixture of Experts, MoE) 架构构建,兼具高性能与高效率的训练和推理能力。在发布时,DBRX 在各大关键基准测试中表现优于所有其他开源模型,超越了 LLaMA 2、Mixtral 和 Grok-1 等模型,并展现出与 GPT-3.5 Turbo 等闭源模型相媲美的竞争力[2]

开发历史

DBRX 的问世是 Databricks 发展开源生成模型战略的延续。2023年6月,Databricks 收购了专注于大模型训练的初创公司 MosaicML,并在此基础上成立了 Mosaic AI 部门[3]

由首席神经网络架构师 Jonathan Frankle 领导的 Mosaic AI 团队着手开发一款新的大型 LLM,旨在达到与最优秀的专有系统相媲美的质量,但采用开放格式。该项目被命名为 DBRX。模型的开发和预训练耗时约2.5个月,成本估计约为1000万美元[3]

架构

DBRX 是一款纯解码器 (decoder-only) Transformer 模型,并采用了细粒度 (fine-grained) 的专家混合 (MoE) 架构。

其主要架构特点如下:

  • 总参数量:1320亿。
  • 专家:模型由 16 个小型专业化子模型(即“专家”)组成。
  • 激活机制:对于每个输入 token,仅激活 16 个专家中的 4 个。这意味着在推理过程中,只有 360亿 参数处于活动状态,从而确保了高速度和高效率。与 Mixtral 模型(8个专家,激活2个)相比,该方案提供了 65 倍以上的专家组合可能性[1]
  • 组件:采用了多种先进的架构设计,如旋转位置嵌入 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA)。
  • 上下文长度:32,768个 token。

这种架构使模型能够结合海量参数(用于存储知识)的优势与较小模型(用于实现快速推理)的高效率。

训练

DBRX 的预训练是在一个精心筛选、规模达 12万亿 token 的数据集上进行的,该数据集由文本和代码组成。数据质量是重中之重:开发团队利用 Databricks 云平台(包括 Apache Spark、Databricks Notebooks 和 Unity Catalog)对数据进行清洗、准备和审核[1]

训练过程中采用了课程学习 (curriculum learning) 方法,即在不同阶段改变数据类型的配比。例如,在训练的最后阶段,团队有控制地引入了复杂任务,据开发者称,这显著提升了模型质量。训练在由 3072 个 Nvidia H100 GPU 组成的集群上完成。

预训练之后,基础模型经过了额外的指令微调 (instruction tuning),以创建交互式版本 DBRX Instruct,该版本专门为执行用户指令进行了优化。

性能

发布时,DBRX 在多项基准测试中为开源 LLM 树立了新的质量标杆。

与开源模型的比较

DBRX Instruct 在关键基准测试上的表现[1]
基准测试 任务 DBRX Instruct 次优模型 (Mixtral/Grok-1)
Hugging Face Open LLM Leaderboard (AVG) 通用知识 74.5% 72.7% (Mixtral Instruct)
HumanEval 编程 70.1% 63.2% (Grok-1)
GSM8K 数学推理 66.9% 62.9% (Grok-1)
MMLU 通用知识 73.7% 71.5% (Mixtral Instruct)

DBRX 在 Hugging Face Open LLM Leaderboard 综合排名和 Databricks LLM Gauntlet 综合测试中均位居榜首,与之前的模型相比表现出显著优势[1]

与闭源模型的比较

DBRX Instruct 在多项关键指标上超越了 GPT-3.5 Turbo,包括 MMLU(73.7% vs 70.0%)和 HumanEval(70.1% vs 48.1%)。在某些基准测试(如 MTBench)中,该模型的回答质量已接近 Gemini 1.0 Pro 和早期版本的 GPT-4[1]

训练与推理效率

  • 训练效率:与同等质量的密集模型相比,MoE 架构的使用将所需的 FLOPS 降低了2-4倍。
  • 推理效率:由于仅激活 360 亿参数,DBRX 的吞吐量(推理速度)比同等规模的密集模型(如 LLaMA2-70B)高出 2-3倍[1]

许可与可用性

DBRX 采用专门制定的 Databricks Open Model License 许可证进行分发。该许可证允许自由使用和修改,包括商业用途,但包含一些限制。具体而言,与 LLaMA 2 许可证类似,如果基于 DBRX 的服务每月活跃用户超过 7亿,则需要获得 Databricks 的单独授权。

模型的预训练权重(基础版和 Instruct 版)可通过 Hugging Face 仓库下载[4]

参考文献

  • Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
  • Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
  • Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
  • Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
  • Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.

注释

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “Introducing DBRX: A New State-of-the-Art Open LLM”. Databricks Blog. [1]
  2. “Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok”. InfoWorld. [2]
  3. 3.0 3.1 “Databricks spent $10M on new DBRX generative AI model”. TechCrunch. [3]
  4. “databricks/dbrx-base”. Hugging Face. [4]