DBRX (Sprachmodell)

From Systems analysis wiki
Jump to navigation Jump to search

DBRX ist ein quelloffenes großes Sprachmodell (LLM), das vom Forschungsteam Mosaic AI des Unternehmens Databricks entwickelt wurde. Das Modell wurde am 27. März 2024 offiziell veröffentlicht und wird als hochleistungsfähige Lösung für den Unternehmenseinsatz positioniert[1].

DBRX basiert auf einer feingranularen Architektur einer Mixture-of-Experts (MoE) und kombiniert hohe Leistung mit Effizienz bei Training und Inferenz. Zum Zeitpunkt seiner Veröffentlichung zeigte DBRX die besten Ergebnisse unter allen quelloffenen Modellen auf wichtigen Benchmarks und übertraf Modelle wie LLaMA 2, Mixtral und Grok-1. Zudem erwies es sich als wettbewerbsfähig gegenüber geschlossenen Modellen auf dem Niveau von GPT-3.5 Turbo[2].

Entwicklungsgeschichte

Die Einführung von DBRX war eine Fortsetzung der Strategie von Databricks, quelloffene generative Modelle zu entwickeln. Im Juni 2023 übernahm Databricks das Startup MosaicML, das auf das Training großer Modelle spezialisiert war. Auf dieser Grundlage wurde die Abteilung Mosaic AI gegründet[3].

Das Mosaic AI-Team unter der Leitung des führenden Architekten für neuronale Netze, Jonathan Frankle, begann mit der Entwicklung eines neuen großen LLM mit dem Ziel, eine Qualität zu erreichen, die mit den besten proprietären Systemen vergleichbar ist, jedoch in einem offenen Format. Das Projekt erhielt den Namen DBRX. Die Entwicklung und das Pre-Training des Modells dauerten etwa 2,5 Monate und kosteten schätzungsweise rund 10 Millionen US-Dollar[3].

Architektur

DBRX ist ein Transformer-Modell vom Typ decoder-only und implementiert eine feingranulare (fine-grained) Mixture-of-Experts (MoE) Architektur.

Die wichtigsten Merkmale der Architektur:

  • Gesamtanzahl der Parameter: 132 Milliarden.
  • Experten: Das Modell besteht aus 16 kleinen, spezialisierten Submodellen („Experten“).
  • Aktivierungsmechanismus: Für jedes Eingabe-Token werden nur 4 der 16 Experten aktiviert. Das bedeutet, dass bei der Inferenz nur 36 Milliarden Parameter aktiv sind, was eine hohe Geschwindigkeit und Effizienz gewährleistet. Dieses Schema ermöglicht 65-mal mehr mögliche Expertenkombinationen als beim Modell Mixtral (8 Experten mit Aktivierung von 2)[1].
  • Komponenten: Es werden moderne Architekturelemente wie Rotary Positional Embeddings (RoPE), Gated Linear Units (GLU) und Grouped Query Attention (GQA) verwendet.
  • Kontextlänge: 32.768 Token.

Eine solche Architektur ermöglicht es dem Modell, die Vorteile einer riesigen Anzahl von Parametern (zur Wissensspeicherung) mit der Effizienz kleinerer Modelle (für hohe Inferenzgeschwindigkeit) zu kombinieren.

Training

Das Pre-Training von DBRX erfolgte auf einem sorgfältig kuratierten Datensatz von 12 Billionen Token, der aus Texten und Code besteht. Die Datenqualität hatte oberste Priorität: Die Entwickler nutzten die Databricks-Cloud-Plattform (Apache Spark, Databricks Notebooks, Unity Catalog) zur Bereinigung, Aufbereitung und Prüfung der Daten[1].

Beim Training wurde die Methode des Curriculum Learning angewendet, bei der das Verhältnis der Datentypen in verschiedenen Phasen variiert wurde. So wurde beispielsweise im letzten Teil des Trainings gezielt die Einführung komplexer Aufgaben dosiert, was laut den Entwicklern zu einer spürbaren Qualitätssteigerung führte. Das Training wurde auf einem Cluster von 3.072 Nvidia H100 GPUs durchgeführt.

Nach dem Pre-Training durchlief das Basismodell eine zusätzliche Feinabstimmung (Instruction Tuning), um die interaktive Version DBRX Instruct zu erstellen, die für die Ausführung von Benutzeranweisungen optimiert ist.

Leistung

Zum Zeitpunkt der Veröffentlichung setzte DBRX einen neuen Qualitätsstandard für quelloffene LLMs über ein breites Spektrum von Benchmarks hinweg.

Vergleich mit quelloffenen Modellen

Ergebnisse von DBRX Instruct auf wichtigen Benchmarks[1]
Benchmark Aufgabe DBRX Instruct Nächstbester (Mixtral/Grok-1)
Hugging Face Open LLM Leaderboard (AVG) Allgemeinwissen 74,5 % 72,7 % (Mixtral Instruct)
HumanEval Programmierung 70,1 % 63,2 % (Grok-1)
GSM8K Mathematisches Schlussfolgern 66,9 % 62,9 % (Grok-1)
MMLU Allgemeinwissen 73,7 % 71,5 % (Mixtral Instruct)

DBRX belegte sowohl im Gesamtranking des Hugging Face Open LLM Leaderboard als auch im umfassenden Test Databricks LLM Gauntlet den ersten Platz und zeigte einen deutlichen Vorsprung gegenüber seinen Vorgängern[1].

Vergleich mit geschlossenen Modellen

DBRX Instruct übertrifft GPT-3.5 Turbo in einer Reihe von Schlüsselkennzahlen, darunter MMLU (73,7 % gegenüber 70,0 %) und HumanEval (70,1 % gegenüber 48,1 %). In Bezug auf die Antwortqualität nähert sich das Modell auf einigen Benchmarks (z. B. MTBench) dem Niveau von Gemini 1.0 Pro und frühen Versionen von GPT-4 an[1].

Effizienz bei Training und Inferenz

  • Trainingseffizienz: Der Einsatz der MoE-Architektur ermöglichte es, die Kosten in FLOPS im Vergleich zu dichten Modellen ähnlicher Qualität um das 2- bis 4-fache zu senken.
  • Inferenzeffizienz: Durch die Aktivierung von nur 36 Milliarden Parametern bietet DBRX einen 2- bis 3-mal höheren Durchsatz (Inferenzgeschwindigkeit) im Vergleich zu dichten Modellen äquivalenter Größe (z. B. LLaMA2-70B)[1].

Lizenzierung und Verfügbarkeit

DBRX wird unter der speziell entwickelten Databricks Open Model License vertrieben. Diese Lizenz erlaubt die freie Nutzung und Modifikation, einschließlich der kommerziellen Anwendung, enthält jedoch einige Einschränkungen. Insbesondere erfordert sie, ähnlich wie die Lizenz für LLaMA 2, eine separate Genehmigung von Databricks, wenn Dienste auf Basis von DBRX von einem Publikum von mehr als 700 Millionen aktiven Nutzern pro Monat genutzt werden.

Die vortrainierten Gewichte des Modells (sowohl der Basis- als auch der Instruct-Version) sind zum Download über das Repository auf Hugging Face verfügbar[4].

Literatur

  • Mosaic Research Team. (2024). Introducing DBRX: A New State‑of‑the‑Art Open LLM. Databricks Blog.
  • Databricks. (2024). Databricks Open Model License (DBRX). Online specification.
  • Fedus, W.; et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Lepikhin, D.; et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Ainslie, J.; et al. (2023). Grouped‑Query Attention: Efficient Training of Generalized Multi‑Query Transformers. arXiv:2305.13245.
  • Su, J.; et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Dao, T. (2023). FlashAttention‑2: Faster Attention with Better Parallelism and Work Partitioning. arXiv:2307.08691.
  • Cai, W.; et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Chen, Y.; et al. (2024). Scaling Laws for Fine‑Grained Mixture of Experts. arXiv:2402.07871.
  • Kundu, A.; et al. (2024). Strategic Data Ordering: Enhancing Large Language Model Training via Curriculum Learning. arXiv:2405.07490.

Einzelnachweise

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 „Introducing DBRX: A New State-of-the-Art Open LLM“. Databricks Blog. [1]
  2. „Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok“. InfoWorld. [2]
  3. 3.0 3.1 „Databricks spent $10M on new DBRX generative AI model“. TechCrunch. [3]
  4. „databricks/dbrx-base“. Hugging Face. [4]