Falcon (language model family) — ファルコン

From Systems analysis wiki
Jump to navigation Jump to search

Falcon(ファルコン)は、アラブ首長国連邦(UAE)アブダビの技術革新研究所Technology Innovation Institute, TII)によって開発された、オープンソースの大規模言語モデル(LLM)ファミリーです[1]。Falconモデルは、Hugging FaceのOpen LLM Leaderboardのようなパフォーマンスランキングで常に上位を占めており、アクセス可能な人工知能の発展に大きく貢献しています[2]

このファミリーには、コンシューマー向けハードウェアで実行可能なコンパクトなバージョンから、主要なテクノロジー企業が開発したモデルと競合する最大規模のモデルまで、さまざまなサイズと専門分野のモデルが含まれています。Falconの主な特徴は、先進的なアーキテクチャ、高品質なデータセットRefinedWebでの学習、そして主にオープンなApache 2.0ライセンスです[3]

歴史と開発

Falconモデルの最初のバージョンは2023年6月に発表されました。2023年9月にはFalcon-180Bモデルがリリースされ、当時、パラメータ数でMeta社のLlama 2 70Bを上回り、世界最大かつ最も高性能なオープンLLMとなりました[4][5]

ファミリーのその後の発展には、新世代モデルや特化バージョンのリリースが含まれます:

  • Falcon 2(2024年):マルチモーダルバージョンであるFalcon 2 11B VLM(Vision Language Model)を含む、機能が改善された第2世代[6]
  • Falcon 3(2024年12月):14兆トークンで学習された最新世代。拡張されたマルチモーダル機能を備え、ノートPCを含む軽量なハードウェアでの動作に最適化されています[7][8]
  • 特化モデルFalcon ArabicFalcon Mambaなど、特定のタスクに適応したモデルがリリースされました。
Falconファミリーの主要モデル
モデル パラメータ数(十億) 主な特徴 ライセンス
Falcon-180B 180 第1世代の最大モデル。3.5兆トークンで学習。GPT-3.5を上回る性能[4] TII Falcon License 1.0(商用利用に制限あり)[5]
Falcon-40B 40 基本的な高性能モデル。1兆トークンで学習。 Apache 2.0
Falcon-7B 7 約15GBのGPUメモリを必要とするコンパクトなモデル。コンシューマー向けハードウェアに適している[2] Apache 2.0
Falcon-1.3B 1.3 リソースが限られたデバイス向けの最小モデル。 Apache 2.0
Falcon 2 11B 11 第2世代。Llama 3 8BおよびGemma 7Bと競合。マルチモーダルバージョン(VLM)も存在する[6] Apache 2.0
Falcon 3 N/A 14兆トークンで学習。マルチモーダル対応(テキスト、画像、音声、動画)。ノートPCで動作[7] Apache 2.0
Falcon Arabic 7 アラビア語(標準語および方言)に特化したモデル。Falcon 3アーキテクチャを採用[9] Apache 2.0
Falcon Mamba N/A Transformerの代わりにMambaアーキテクチャ(SSM)を採用した実験的モデル[10] Apache 2.0

アーキテクチャと技術的特徴

Transformerアーキテクチャ

Falconモデルのほとんどは、「デコーダのみ」のTransformerアーキテクチャに基づいて構築されています。主要なアーキテクチャ上の決定事項には以下が含まれます:

  • Multi-Query Attention (MQA):各「ヘッド」が独自のキーとバリュー(key/value)のセットを持つ標準的なMulti-Head Attentionとは異なり、MQAではすべてのアテンションヘッドが単一のキーとバリューのセットを共有します。これにより、品質を大幅に損なうことなく、メモリ消費量を大幅に削減し、推論を高速化します[2]
  • Rotary Positional Embeddings (RoPE):他の現代的なLLMと同様に、トークンの位置情報をエンコードするためにRoPEが使用されています。
  • FlashAttention:アテンション機構の計算を最適化するために使用されます。

Mambaアーキテクチャ (State Space Model)

Falcon Mambaモデルは、従来のTransformerアーキテクチャから脱却し、State Space Model (SSM)を採用している点で革新的です。Mambaアーキテクチャはデータシーケンスを線形に処理するため、非常に長いコンテキストを扱う際にTransformerと比較して大幅に効率が良く、必要な計算リソースも少なくなります[10]

学習データ

Falconモデルの学習基盤となっているのは、TIIが作成した高品質なデータセットRefinedWebです[5]。これはCommon Crawlから抽出された数兆のトークンで構成されており、品質向上のために厳格なフィルタリングと重複排除が適用されています。

  • Falcon-180Bには、3.5兆トークンからなる拡張データセットが使用されました。このデータセットの約85%はRefinedWebで構成され、その他に書籍、対話、コードから選別されたデータが含まれています[4]
  • Falcon Arabicは、現代標準アラビア語と地域の方言の両方をカバーする、高品質なネイティブ(非翻訳)のアラビア語データセットで学習されました[11]

特化モデル

Falcon Arabic - ファルコン・アラビック

Falcon Arabicは70億パラメータを持つモデルで、アラビア語の扱いに特化して最適化されています。アラビア語のベンチマーク(Open Arabic LLM Leaderboard)で優れた結果を示し、現代標準アラビア語(MSA)と多くの地域方言の両方を理解することができます。これにより、アラビア語話者のユーザーに対して、文化的に配慮された正確な応答を提供できます[9]。パフォーマンス面では、自身の10倍のサイズのモデルをも上回ります[12]

マルチモーダル機能

  • Falcon 2 11B VLMは、ファミリー初のマルチモーダルモデルであり、テキストと画像の両方を処理する能力を持っています[6]
  • Falcon 3はこれらの機能を大幅に拡張し、動画と音声のサポートを追加しました。2025年1月には、完全な音声モードが利用可能になる予定です[7]

パフォーマンスと課題

競合との比較

Falconモデルは安定して高いパフォーマンスを示しています。

  • Falcon-180Bは、MMLU、HellaSwag、LAMBADAなどのほとんどの学術的ベンチマークにおいてGPT-3.5やLlama 2 70Bを上回りますが、GPT-4には劣ります[4]
  • Falcon 2 11Bは、Meta Llama 3 8BやGoogle Gemma 7Bと同等かそれ以上のパフォーマンスを示します[6]
  • Falcon 3は、リリース時点で、同規模のモデルの中でHugging Faceのグローバルランキングで1位を獲得しました[7]

制約と課題

  • 多言語での品質:学習データの大部分は英語です[13]。このため、ロシア語を含む他の言語でのモデルの性能は著しく低い場合があります。[14]
  • ハルシネーション:すべてのLLMと同様に、Falconモデルも不正確または架空の情報(ハルシネーション)を生成する傾向があり、ミッションクリティカルなアプリケーションでの使用には慎重なアプローチが求められます[15]
  • ライセンスの制限:ほとんどのモデルはApache 2.0ライセンスで配布されていますが、フラッグシップモデルであるFalcon-180Bは独自のTII Falcon LLM Licenseを採用しています。このライセンスは、100万ドルを超える収益がある商用利用に対してロイヤリティの支払いを義務付けており、ビジネスでの利用を制限しています[5][16]

外部リンク

参考文献

  • Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
  • Almazrouei, E. et al. (2023). The Falcon Series of Open Language Models. arXiv:2311.16867.
  • Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
  • Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv:2306.01116.
  • Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.

脚注

  1. 「UAEで大規模言語モデルFalcon 2を発表」 インターファクス通信. [1]
  2. 2.0 2.1 2.2 «Falcon: The "T-shirt-sized" 7B and 40B models that are democratizing the LLM landscape». Hugging Face Blog. [2]
  3. «Falcon Model». Hugging Face Transformers documentation. [3]
  4. 4.0 4.1 4.2 4.3 «Falcon 180B open-source language model outperforms GPT-3.5 and Llama 2». The Decoder. [4]
  5. 5.0 5.1 5.2 5.3 「Falcon 180B: 世界最大のオープン言語モデル」 Neurohive. [5]
  6. 6.0 6.1 6.2 6.3 「Falcon 2:UAEの技術革新研究所がMetaのLlama 3を凌駕する新AIモデルシリーズをリリース」 AETOSWire. [6]
  7. 7.0 7.1 7.2 7.3 「Falcon 3:UAEの技術革新研究所が、ノートPCなどの軽量デバイスでも動作可能な世界で最も強力な小型AIモデルをローンチ」 AETOSWire. [7]
  8. «Technology Innovation Institute launches Falcon 3 model to enhance access to AI through light infrastructures». Abu Dhabi Media Office. [8]
  9. 9.0 9.1 «Falcon Arabic». FalconLLM TII. [9]
  10. 10.0 10.1 「Falcon Mamba — アテンション機構なしの言語モデル開発における新たな一歩」 Pikabu. [10]
  11. «Middle East's Leading AI Powerhouse TII Launches Two New AI Models». TII News. [11]
  12. «Middle East's leading AI powerhouse, TII,launches two new AI models». Falcon Foundation. [12]
  13. Almazrouei, Ebtesam, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, 他、「The Falcon Series of Open Language Models」。arXiv、2023年11月29日。https://doi.org/10.48550/arXiv.2311.16867。[13]
  14. 「中東をリードするAI開発企業TIIが2つの新AIモデルをローンチ」 AETOSWire. [14]
  15. 「Falcon-180B:概要、起動、第一印象」 Habr. [15]
  16. «Falcon 180B License Discussion». Hugging Face. [16]