DBRX (language model) — DBRX（语言模型）

DBRX 是一款由 Databricks 公司的 Mosaic AI 研究团队开发的开源大语言模型 (LLM)。该模型于2024年3月27日正式发布，定位为面向企业应用的高性能解决方案^[1]。

DBRX 基于细粒度的专家混合 (Mixture of Experts, MoE) 架构构建，兼具高性能与高效率的训练和推理能力。在发布时，DBRX 在各大关键基准测试中表现优于所有其他开源模型，超越了 LLaMA 2、Mixtral 和 Grok-1 等模型，并展现出与 GPT-3.5 Turbo 等闭源模型相媲美的竞争力^[2]。

开发历史

DBRX 的问世是 Databricks 发展开源生成模型战略的延续。2023年6月，Databricks 收购了专注于大模型训练的初创公司 MosaicML，并在此基础上成立了 Mosaic AI 部门^[3]。

由首席神经网络架构师 Jonathan Frankle 领导的 Mosaic AI 团队着手开发一款新的大型 LLM，旨在达到与最优秀的专有系统相媲美的质量，但采用开放格式。该项目被命名为 DBRX。模型的开发和预训练耗时约2.5个月，成本估计约为1000万美元^[3]。

架构

DBRX 是一款纯解码器 (decoder-only) Transformer 模型，并采用了细粒度 (fine-grained) 的专家混合 (MoE) 架构。

其主要架构特点如下：

总参数量：1320亿。
专家：模型由 16 个小型专业化子模型（即“专家”）组成。
激活机制：对于每个输入 token，仅激活 16 个专家中的 4 个。这意味着在推理过程中，只有 360亿 参数处于活动状态，从而确保了高速度和高效率。与 Mixtral 模型（8个专家，激活2个）相比，该方案提供了 65 倍以上的专家组合可能性^[1]。
组件：采用了多种先进的架构设计，如旋转位置嵌入 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA)。
上下文长度：32,768个 token。

这种架构使模型能够结合海量参数（用于存储知识）的优势与较小模型（用于实现快速推理）的高效率。

训练

DBRX 的预训练是在一个精心筛选、规模达 12万亿 token 的数据集上进行的，该数据集由文本和代码组成。数据质量是重中之重：开发团队利用 Databricks 云平台（包括 Apache Spark、Databricks Notebooks 和 Unity Catalog）对数据进行清洗、准备和审核^[1]。

训练过程中采用了课程学习 (curriculum learning) 方法，即在不同阶段改变数据类型的配比。例如，在训练的最后阶段，团队有控制地引入了复杂任务，据开发者称，这显著提升了模型质量。训练在由 3072 个 Nvidia H100 GPU 组成的集群上完成。

预训练之后，基础模型经过了额外的指令微调 (instruction tuning)，以创建交互式版本 DBRX Instruct，该版本专门为执行用户指令进行了优化。

性能

发布时，DBRX 在多项基准测试中为开源 LLM 树立了新的质量标杆。

与开源模型的比较

DBRX Instruct 在关键基准测试上的表现^[1]
基准测试	任务	DBRX Instruct	次优模型 (Mixtral/Grok-1)
Hugging Face Open LLM Leaderboard (AVG)	通用知识	74.5%	72.7% (Mixtral Instruct)
HumanEval	编程	70.1%	63.2% (Grok-1)
GSM8K	数学推理	66.9%	62.9% (Grok-1)
MMLU	通用知识	73.7%	71.5% (Mixtral Instruct)

DBRX 在 Hugging Face Open LLM Leaderboard 综合排名和 Databricks LLM Gauntlet 综合测试中均位居榜首，与之前的模型相比表现出显著优势^[1]。

与闭源模型的比较

DBRX Instruct 在多项关键指标上超越了 GPT-3.5 Turbo，包括 MMLU（73.7% vs 70.0%）和 HumanEval（70.1% vs 48.1%）。在某些基准测试（如 MTBench）中，该模型的回答质量已接近 Gemini 1.0 Pro 和早期版本的 GPT-4^[1]。

训练与推理效率

训练效率：与同等质量的密集模型相比，MoE 架构的使用将所需的 FLOPS 降低了2-4倍。
推理效率：由于仅激活 360 亿参数，DBRX 的吞吐量（推理速度）比同等规模的密集模型（如 LLaMA2-70B）高出 2-3倍^[1]。

许可与可用性

DBRX 采用专门制定的 Databricks Open Model License 许可证进行分发。该许可证允许自由使用和修改，包括商业用途，但包含一些限制。具体而言，与 LLaMA 2 许可证类似，如果基于 DBRX 的服务每月活跃用户超过 7亿，则需要获得 Databricks 的单独授权。

模型的预训练权重（基础版和 Instruct 版）可通过 Hugging Face 仓库下载^[4]。

参考文献

Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.

注释

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 “Introducing DBRX: A New State-of-the-Art Open LLM”. Databricks Blog. [1]
↑ “Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok”. InfoWorld. [2]
↑ ^3.0 ^3.1 “Databricks spent $10M on new DBRX generative AI model”. TechCrunch. [3]
↑ “databricks/dbrx-base”. Hugging Face. [4]

[dbrx_blog-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 “Introducing DBRX: A New State-of-the-Art Open LLM”. Databricks Blog. [1]

[infoworld_dbrx-2] “Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok”. InfoWorld. [2]

[techcrunch_dbrx_10m-3] 3.0 ^3.1 “Databricks spent $10M on new DBRX generative AI model”. TechCrunch. [3]

[huggingface_dbrx-4] “databricks/dbrx-base”. Hugging Face. [4]

[1]

[2]

[3]

[4]

DBRX (language model) — DBRX（语言模型）

Contents

开发历史

架构

训练

性能

与开源模型的比较

与闭源模型的比较

训练与推理效率

许可与可用性

参考文献

注释

Navigation menu

DBRX (language model) — DBRX（语言模型）

开发历史

架构

训练

性能

与开源模型的比较

与闭源模型的比较

训练与推理效率

许可与可用性

参考文献

注释

Navigation menu

Search