Jais (language model) — ジャイス

From Systems analysis wiki
Jump to navigation Jump to search

Jais (「ジャイス」と発音) は、アラブ首長国連邦で開発され、特にアラビア語に最適化されたオープンな大規模言語モデル (LLM)のファミリーです[1]。モデル名は、UAE最高峰の山であるジェベル・ジャイスにちなんで名付けられました[2]

このプロジェクトは、研究企業Inception (テクノロジーコングロマリットG42の子会社)、モハメド・ビン・ザーイド人工知能大学 (MBZUAI)、そしてカリフォルニアのAIチップ製造企業Cerebras Systemsとの協力によって創設されました[2]。Jaisは寛容なライセンスの下でオープンに公開されており、アラビア語のAIエコシステムの発展を促進し、文化的・言語的遺産を保護し、現代のAI技術をアラビア語圏にとってよりアクセスしやすいものにすることを目的としています[1]

開発の歴史とリリース

Jaisプロジェクトは、低リソース言語に対する既存のLLMの限界を背景に、2023年に開始されました。開発者たちは、アラビア語と英語の両方を同等にうまく処理できる高品質なバイリンガルモデルが不足していると指摘していました[2]

Jais-13B: 最初のバージョン

最初のバージョンであるJais-13Bは、2023年8月30日にリリースされ、130億のパラメータを含んでいました[1]。このモデルは、英語とアラビア語のテキストからなる混合コーパスで学習され、その規模は3950億トークンに及びました[3]。リリース時点では、「最高品質のアラビア語LLM」と称されました[1]

Jais-30B: スケールアップ

2023年11月8日、3ヶ月も経たないうちに、コンソーシアムは大幅に改良された第2バージョンである300億パラメータを持つJais-30Bを発表しました[4]。このスケールアップは、要約や翻訳といったより複雑な応用タスクを解決する必要性から行われました。モデルは、拡張されクリーンアップされた1兆6300億トークンのデータセットで学習されました[4]

Jais-70Bとモデルファミリー

2024年8月6日、Inception (G42) は、フラッグシップモデルであるJais-70B (700億パラメータ) および関連モデルのファミリー全体の立ち上げを発表しました[5]。Jais-70Bは、アラビア語に特化した最大のオープンLLMとなりました。その開発にはcontinuous training (継続的学習) の手法が採用されました。ゼロから学習する代わりに、Meta社のLlama 2 70Bモデルをベースとし、アラビア語の3300億トークンで追加学習を行いました。これにより、Llama 2が持つ英語の知識を効率的に引き継ぎ、リソースをアラビア語の学習に集中させることが可能になりました[5]

アーキテクチャと技術的特徴

Jaisは、GPT-3アーキテクチャ (decoder-only) に基づく自己回帰型トランスフォーマーモデルに分類されます。このモデルの主な特徴は、英語が主流である多くの多言語LLMとは異なり、アラビア語と英語に特化したバイリンガルである点です。これにより、アラビア語とその方言に対する深い理解が可能になります[3]

Jaisの構築には、以下のような先進的な技術が統合されています[3]

  • ALiBi位置埋め込み: モデルが学習時よりも長いコンテキストを処理できるようにする、特殊な位置エンベディング方式。
  • SwiGLU活性化関数: 学習の質とニューラルネットワーク層の表現力を向上させる活性化関数。
  • Maximal Update Parametrization (µP): モデルサイズを拡大する際の学習を安定させるためのハイパーパラメータ調整手法。
  • 専用のトークナイザー: アラビア語と英語の特性を考慮して開発され、汎用的なトークナイザーと比較してアラビア語テキストのトークン数を3~4倍削減し、処理速度を向上させます[6]

ベースモデル (foundation models) に加えて、チャットボットやアシスタントとしてのタスクに適応させるため、960万の質疑応答ペアで追加学習されたJais-chatバージョンもリリースされました[3]

学習とデータセット

プロジェクトの主要な課題の一つは、高品質かつ大規模なアラビア語テキストコーパスを準備することでした。Jais-13Bの最終的な学習データセットは3950億トークンで構成され、その内訳は以下の通りです:

  • 1160億トークン (29%) — アラビア語テキスト。
  • 2790億トークン (71%) — 英語テキストおよびプログラムコード。

アラビア語コンポーネントは、高い言語能力を確保するために意図的に大きな割合 (約30%) を占めるようにされました[3]。データには書籍、ニュース記事、ウェブページ、ソースコードが含まれていました。高品質なアラビア語テキストの量を増やすため、英語リソースの機械翻訳も利用されました[3]

モデルの学習は、G42とCerebras Systemsが共同開発したアブダビのスーパーコンピュータCondor Galaxy 1 (CG-1)で行われました。このインフラのおかげで、Jais-13Bの学習にかかった正味時間はわずか約3.5日でした[2]

応用と意義

Jaisは、アラビア語および現代のLLMで十分にカバーされていない他の言語コミュニティのための生成AI開発における重要な一歩として位置づけられています。このモデルへのオープンアクセスは、中東および北アフリカ地域における自然言語処理技術の導入を促進することを目的としています。

プロジェクトは開始以来、UAEの政府機関や商業組織の関心を集めています。UAE外務省、石油・ガス会社のADNOC、エティハド航空、ファースト・アブダビ銀行などが、このモデルへの早期アクセス権を得ました[1]。2024年、MicrosoftはJaisを自社のクラウドプラットフォームであるMicrosoft Azureに統合し、グローバルユーザーが利用できるようにすると発表しました[6]

Jaisの開発者たちは、アラビア語の文化的・言語的遺産を保護する上でのその役割を強調しています。Inceptionのエグゼクティブディレクターであるアンドリュー・ジャクソン氏によると、このプロジェクトは「豊かな遺産を持つアラビア語がAIのランドスケープにおいてその声を見出すことを確実にする」ことを目的としています[1]。蓄積された経験は、他の言語や文化のための同様のLLMを構築するために活用される予定です[1]

参考文献

  • Shazeer, N.; et al. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
  • Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
  • Yang, G.; et al. (2022). Tensor Programs V: Tuning Large Neural Networks via Zero‑Shot Hyperparameter Transfer. arXiv:2203.03466.
  • Ali, A. R.; et al. (2022). A Large and Diverse Arabic Corpus for Language Modeling. arXiv:2201.09227.
  • Sengupta, N.; et al. (2023). Jais and Jais‑chat: Arabic‑Centric Foundation and Instruction‑Tuned Open Generative Large Language Models. arXiv:2308.16149.
  • Inception AI (2024). JAIS 30B Whitepaper. Online whitepaper.
  • Koto, F.; et al. (2024). ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. arXiv:2402.12840.
  • Qian, Z.; et al. (2024). CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks. arXiv:2409.12623.
  • Blake, C.; et al. (2024). u‑μP: The Unit‑Scaled Maximal Update Parametrization. arXiv:2407.17465.
  • Inception AI; MBZUAI; Cerebras Systems (2024). Jais Family Model Card. Hugging Face.

注釈

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 “Meet "Jais", The World's Most Advanced Arabic Large Language Model Open Sourced by G42's Inception”. Cerebras Systems. [1]
  2. 2.0 2.1 2.2 2.3 “UAE's G42 launches open source Arabic language AI model”. Reuters. [2]
  3. 3.0 3.1 3.2 3.3 3.4 3.5 “[2308.16149] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models”. arXiv. [3]
  4. 4.0 4.1 “Upgraded Arabic large language model is twice as big”. Computer Weekly. [4]
  5. 5.0 5.1 “G42 launches JAIS 70B and 20 other AI models to advance Arabic natural language processing”. Abu Dhabi Media Office. [5]
  6. 6.0 6.1 “Introducing JAIS: Arabic-centric Large Language Model on Azure”. Microsoft Tech Community. [6]