DBRX (language model) — DBRX

DBRXは、Databricks社内のMosaic AI研究チームによって開発されたオープンな大規模言語モデル（LLM）です。このモデルは2024年3月27日に正式にリリースされ、企業向けの高性能ソリューションとして位置づけられています^[1]。

DBRXは、きめ細かい専門家混合（Mixture of Experts, MoE）アーキテクチャに基づいて構築されており、高いパフォーマンスと効率的なトレーニングおよび推論を両立させています。リリース時点で、DBRXは主要なベンチマークにおいて、LLaMA 2、Mixtral、Grok-1などのモデルを上回り、すべてのオープンモデルの中で最高の結果を示し、GPT-3.5 Turboレベルのクローズドモデルとの競争力も証明しました^[2]。

開発経緯

DBRXの登場は、オープンな生成モデルを開発するというDatabricksの戦略の延長線上にあります。2023年6月、Databricksは大規模モデルのトレーニングを専門とするスタートアップMosaicMLを買収し、その基盤の上にMosaic AI部門を設立しました^[3]。

ニューラルネットワークの主任アーキテクトであるジョナサン・フランクルが率いるMosaic AIチームは、最高のプロプライエタリシステムに匹敵する品質をオープンなフォーマットで達成することを目標に、新しい大規模LLMの開発に着手しました。このプロジェクトはDBRXと名付けられました。モデルの開発と事前学習には約2.5ヶ月を要し、推定コストは約1000万ドルでした^[3]。

アーキテクチャ

DBRXはデコーダーのみ（decoder-only）のトランスフォーマーモデルであり、きめ細かい（fine-grained）専門家混合（MoE）アーキテクチャを実装しています。

アーキテクチャの主な特徴：

総パラメータ数: 1320億。
エキスパート: モデルは16の小規模な専門サブモデル（「エキスパート」）で構成されています。
活性化メカニズム: 各入力トークンに対して、16のエキスパートのうち4つだけが活性化されます。これにより、推論時にアクティブなパラメータは360億に抑えられ、高速性と効率性が確保されます。この方式は、Mixtralモデル（8エキスパート、2つ活性化）と比較して65倍多くのエキスパートの組み合わせを可能にします^[1]。
コンポーネント: 回転位置埋め込み（RoPE）、ゲート付き線形ユニット（gated linear units, GLU）、グループ化クエリアテンション（grouped query attention, GQA）などの最新のアーキテクチャソリューションが使用されています。
コンテキスト長: 32,768トークン。

このようなアーキテクチャにより、モデルは膨大なパラメータ数（知識を保存するため）の利点と、小規模モデルの効率性（推論速度のため）を両立させることができます。

トレーニング

DBRXの事前学習は、テキストとコードで構成される12兆トークン規模の、慎重にキュレーションされたデータセットで行われました。データ品質が最優先事項とされ、開発者はDatabricksのクラウドプラットフォーム（Apache Spark、Databricks Notebooks、Unity Catalog）を使用して、データのクリーニング、準備、監査を行いました^[1]。

トレーニングでは、さまざまな段階でデータタイプの比率を変更するカリキュラム学習（curriculum learning）の手法が採用されました。例えば、トレーニングの最終段階では、複雑なタスクを段階的に導入することに重点が置かれ、開発者によると、これにより品質が著しく向上しました。トレーニングは3072基のNvidia H100 GPUからなるクラスターで実施されました。

事前学習後、ベースモデルはさらなるファインチューニング（instruction tuning）を経て、ユーザーの指示を実行するために最適化された対話型バージョンDBRX Instructが作成されました。

パフォーマンス

リリース時点で、DBRXは幅広いベンチマークにおいてオープンLLMの品質の新たな基準を打ち立てました。

オープンモデルとの比較

主要なベンチマークにおけるDBRX Instructの結果^[1]
ベンチマーク	タスク	DBRX Instruct	次点の最良モデル (Mixtral/Grok-1)
Hugging Face Open LLM Leaderboard (AVG)	一般知識	74.5%	72.7% (Mixtral Instruct)
HumanEval	プログラミング	70.1%	63.2% (Grok-1)
GSM8K	数学的推論	66.9%	62.9% (Grok-1)
MMLU	一般知識	73.7%	71.5% (Mixtral Instruct)

DBRXは、総合ランキングHugging Face Open LLM Leaderboardと、包括的なテストDatabricks LLM Gauntletの両方で1位を獲得し、先行モデルに対して大きな差をつけました^[1]。

クローズドモデルとの比較

DBRX Instructは、MMLU（73.7%対70.0%）やHumanEval（70.1%対48.1%）を含むいくつかの主要な指標でGPT-3.5 Turboを上回っています。一部のベンチマーク（例：MTBench）における回答の質では、Gemini 1.0 Proや初期バージョンのGPT-4のレベルに迫っています^[1]。

トレーニングと推論の効率性

トレーニング効率: MoEアーキテクチャの採用により、同等の品質を持つ密なモデルと比較して、FLOPSでのコストを2～4倍削減することができました。
推論効率: 360億のパラメータのみを活性化することで、DBRXは同等サイズの密なモデル（例：LLaMA2-70B）と比較して2～3倍高いスループット（推論速度）を実現します^[1]。

ライセンスと利用可能性

DBRXは、特別に策定されたDatabricks Open Model Licenseの下で配布されています。このライセンスは、商用利用を含む自由な使用と改変を許可していますが、いくつかの制限が含まれています。特に、LLaMA 2のライセンスと同様に、DBRXベースのサービスが月間アクティブユーザー7億人を超えるオーディエンスに使用される場合、Databricksからの別途許可が必要となります。

モデルの事前学習済み重み（ベース版とInstruct版）は、Hugging Faceのリポジトリからダウンロードできます^[4]。

参考文献

Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.

注釈

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 「Introducing DBRX: A New State-of-the-Art Open LLM」。Databricks Blog。[1]
↑ 「Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok」。InfoWorld。[2]
↑ ^3.0 ^3.1 「Databricks spent $10M on new DBRX generative AI model」。TechCrunch。[3]
↑ 「databricks/dbrx-base」。Hugging Face。[4]

[dbrx_blog-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 「Introducing DBRX: A New State-of-the-Art Open LLM」。Databricks Blog。[1]

[infoworld_dbrx-2] 「Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok」。InfoWorld。[2]

[techcrunch_dbrx_10m-3] 3.0 ^3.1 「Databricks spent $10M on new DBRX generative AI model」。TechCrunch。[3]

[huggingface_dbrx-4] 「databricks/dbrx-base」。Hugging Face。[4]

[1]

[2]

[3]

[4]

DBRX (language model) — DBRX

Contents

開発経緯

アーキテクチャ

トレーニング

パフォーマンス

オープンモデルとの比較

クローズドモデルとの比較

トレーニングと推論の効率性

ライセンスと利用可能性

参考文献

注釈

Navigation menu

DBRX (language model) — DBRX

開発経緯

アーキテクチャ

トレーニング

パフォーマンス

オープンモデルとの比較

クローズドモデルとの比較

トレーニングと推論の効率性

ライセンスと利用可能性

参考文献

注釈

Navigation menu

Search