BLOOM (language model) — ブルーム
BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)は、1760億のパラメータを持つオープンアクセスの大規模言語モデル(LLM)です。このモデルは2022年、Hugging Face社の支援のもと、70カ国から1000人以上の研究者が参加する国際的な共同プロジェクトBigScienceの一環として開発されました[1]。
BLOOMは自己回帰型のトランスフォーマーモデルであり、46の自然言語と13のプログラミング言語で一貫性のあるテキストを生成する能力を持っています。このモデルはフランスのスーパーコンピュータ「Jean Zay」で学習され、OpenAIのGPT-3のようなクローズドモデルに対する、真にオープンな代替案の最初の1つとなりました[2]。
背景と開発
BigScienceイニシアチブは、大規模なオープン言語モデルを共同で作成し、AI研究の民主化を目指す目的で2021年5月に発足しました[1]。当時、GPT-3のような最先端のLLMは、アーキテクチャ、学習データ、ソースコードを公開しない大企業によって非公開で開発されていました。BigScienceプロジェクトは、競争力のある完全にオープンなモデルを構築するために、世界中から1000人以上のボランティア研究者を集めました。
このプロジェクトは、フランスのスーパーコンピュータJean Zay(IDRIS/CNRS)の計算リソースに対する助成金を受けました。モデルの学習は2022年3月11日から7月6日まで行われました[3]。開発は最大限の透明性をもって進められました。チームはデータ選定や学習設定に関する情報を公開し、プロジェクトで採択された倫理憲章に従って公開討論を行いました。
アーキテクチャと学習
モデルのアーキテクチャ
BLOOMは、GPT-3モデルと同様の自己回帰型(decoder-only)のトランスフォーマーアーキテクチャに基づいています[2]。
| パラメータ | 仕様 |
|---|---|
| タイプ | デコーダーオンリー・トランスフォーマー |
| パラメータ数 | 176,247,271,424 |
| 層(layers) | 70 |
| アテンションヘッド数 | 112 |
| 隠れ状態の次元数 | 14,336 |
| シーケンス長 | 2048トークン |
| 活性化関数 | GeLU、ALiBi位置エンコーディング |
モデルは、NvidiaとMicrosoftがそれぞれ開発したフレームワークMegatron-LMとDeepSpeedをベースに実装され、効率的な分散学習のためにいくつかの変更が加えられています[5]。
学習データ
BLOOMは、特別に作成されたテキストデータコーパスROOTS(The Responsible Open-science Open-collaboration Text Sources)で学習されました。データの総量は、クレンジングおよび重複排除されたテキストで1.6テラバイト(約3660億トークン)に及びます[6]。
このコーパスには、59の言語のテキストが含まれています:
- 46の自然言語:英語(トークンの30%)、中国語、フランス語、スペイン語、アラビア語に加え、リソースの少ない多くの言語(例:チトゥンブカ語 - トークンの0.00002%)が含まれます。
- 13のプログラミング言語:Python、Java、JavaScript、C++などが含まれます。
このような多言語・多領域のデータセットは、幅広い言語コミュニティでモデルが利用できるように意図的に収集されました。
パフォーマンスと応用
BLOOMは、その多言語性にもかかわらず、Meta社のOPT-175Bのような同規模のモデルに匹敵する競争力のある結果を様々なベンチマークで示しています[2]。
このモデルは、zero-shotモード(追加学習なし)で幅広いタスクを実行できます。これには以下が含まれます:
- 指定されたスタイルでのテキスト生成。
- 文書の要約。
- 文脈に基づいた質疑応答。
- 言語間の翻訳。
- 簡単なプログラムコードの生成。
実用性を向上させるため、BigScienceチームは後に追加のマルチタスクファインチューニング(fine-tuning)を行い、ユーザーの指示により正確に従うバージョンBLOOMZを作成しました。
ライセンスとオープンアクセス
1760億パラメータの完全なBLOOMモデル、そのソースコード、データは2022年7月に公開されました。モデルは、特別に策定されたライセンスRAIL (Responsible AI License) v1.0の下で配布されています[7]。
このライセンスはモデルの無料使用と改変を許可していますが、特定の分野での利用にはいくつかの制限を課しています。特に、BigScienceの倫理規範に反する目的でのBLOOMの使用は禁止されています。例えば、以下のような目的です:
- 大規模な監視。
- アルゴリズムによる差別。
- 偽情報の拡散。
- 致死性兵器の管理。
BLOOMは、責任ある使用に関する明確な条項を持つライセンスの下でリリースされた初の主要なAIモデルとなりました[8]。
参考文献
- Hendrycks, D.; Gimpel, K. (2016). Gaussian Error Linear Units (GELUs). arXiv:1606.08415.
- Shoeybi, M.; et al. (209). Megatron‑LM: Training Multi‑Billion Parameter Language Models Using Model Parallelism. arXiv:1909.08053.
- Rajbhandari, S.; et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. arXiv:1910.02054.
- Press, O.; et al. (2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv:2108.12409.
- Le Scao, T.; et al. (2022). BLOOM: A 176B‑Parameter Open‑Access Multilingual Language Model. arXiv:2211.05100.
- Muennighoff, N.; et al. (2022). BLOOMZ & mT0: A Cross‑Lingual Baseline for Instruction Finetuning. arXiv:2211.01786.
- BigScience Workshop (2022). BigScience OpenRAIL‑M License v1.0. Online specification.
- Akiki, C.; et al. (2022). BigScience: A Case Study in the Social Construction of a Multilingual Large Language Model. arXiv:2212.04960.
- Yong, Z.‑X.; et al. (2022). BLOOM+1: Adding Language Support to BLOOM for Zero‑Shot Prompting. arXiv:2212.09535.
- Biderman, S.; et al. (2023). The BigScience ROOTS Corpus: A 1.6 TB Composite Multilingual Dataset. arXiv:2303.03915.
注釈
- ↑ 1.0 1.1 「BLOOM」。BigScience Blog。[1]
- ↑ 2.0 2.1 2.2 Le Scao, T., et al. (2022). 「BLOOM: A 176B-Parameter Open-Access Multilingual Language Model」。arXiv:2211.05100。[2]
- ↑ 「Researchers open-source neural network with 176B parameters」。SiliconANGLE。[3]
- ↑ 「bigscience/bloom」。Hugging Face。[4]
- ↑ 「The Technology Behind BLOOM Training」。Hugging Face Blog。[5]
- ↑ Biderman, S. et al. (2023). 「The BigScience ROOTS Corpus: A 1.6 TB Composite Multilingual Dataset」。arXiv:2303.03915。[6]
- ↑ 「BigScience OpenRAIL-M」。BigScience Blog。[7]
- ↑ Heikkilä, M. 「BLOOM is the first AI model to be under a...」。X。[8]