LLaMA (Meta AI) — ラマ
LLaMA (Large Language Model Meta AI) は、Meta AIの研究部門が開発した、主にオープンソースの大規模言語モデル(LLM)ファミリーです。LLaMAモデルは、改良されたTransformerアーキテクチャを基盤としており、高い計算効率、最先端のAI技術へのアクセスの民主化、そして特定タスクへの容易な適応を目指しています。このファミリーは、最初の研究リリースであるLLaMA 1(2023年2月)から、マルチモーダルモデルであるLLaMA 4(2025年リリース予定)へと進化を遂げています。
名称
頭字語LLaMAはLarge Language Model Meta AI(Meta AIの大規模言語モデル)の略です。
- Large Language Model — パラメータ数が数十億から数兆に及ぶモデルの規模を強調しています。
- Meta AI — 開発者であるMetaの研究グループを示しています。
開発の歴史
LLaMAの開発は、OpenAIのChatGPTの成功に対するMetaの戦略的な対応として、2022年末に開始されました。マーク・ザッカーバーグは、FAIR(Facebook AI Research)の研究者を含む学際的なチームを結成しました。プロジェクトの哲学において重要な役割を果たしたのは、FAIRの責任者であるヤン・ルカンであり、彼は2013年以来、研究室のすべての研究を完全にオープンにするという原則を貫いてきました。
最初のバージョンであるLLaMA 1は、2023年2月に研究用ライセンスでリリースされました。リリースの直後、2023年3月にモデルの重みがBitTorrent経由でネットワークに流出しました。この出来事は懸念とは裏腹に、プロジェクトの発展を止めるどころか、むしろ加速させました。世界中の独立した研究者や愛好家がモデルを実験する機会を得たからです。その結果、Hugging Faceプラットフォームには数万もの派生モデルが登場しました。LLaMA 2以降のバージョンは、商用ライセンスでリリースされるようになり[1]、LLaMAがオープンAIモデル市場における主要プレイヤーとしての地位を確立しました。
モデルの進化とリリースの時系列
| バージョン | リリース日 | パラメータ範囲 | 主なイノベーションと特徴 |
|---|---|---|---|
| LLaMA 1 | 2023年2月 | 7B – 65B | 基本アーキテクチャ(RMSNorm, SwiGLU, RoPE)。1.4兆トークンで学習。コンテキストウィンドウ2048トークン。研究用ライセンス。 |
| LLaMA 2 | 2023年7月 | 7B – 70B | 対話のためのファインチューニング(RLHF)。Grouped-Query Attention (GQA)の導入。コンテキストウィンドウ4096トークン。初の商用ライセンス。 |
| Code Llama | 2023年8月 | 7B – 70B | コードに特化したバージョン。5000億トークンのコードで追加学習。バリアント:基本、Python特化、instruction-tuned。 |
| LLaMA 3 | 2024年4月 | 8B, 70B | 15兆トークンで学習。12万8000トークンの語彙を持つ改善されたトークナイザ。高性能(MMLUで82%)。 |
| LLaMA 3.1 | 2024年7月[2] | 8B, 70B, 405B | GPT-4oレベルの性能を持つフラッグシップモデル405B。最大12万8000トークンのコンテキストウィンドウ。画像処理機能が追加。 |
| LLaMA 4 | (予定: 2025年4月) | 109B (Scout), 400B (Maverick), 2T (Behemoth) | Mixture-of-Experts (MoE) アーキテクチャ。ネイティブなマルチモーダル性(テキスト、画像、動画)。最大1000万トークンのコンテキストウィンドウ。 |
アーキテクチャ
LLaMAは自己回帰型のTransformerデコーダアーキテクチャを採用していますが、計算効率と生成テキストの品質を向上させるため、いくつかの重要な改良を導入しています:
- Pre-normalization(事前正規化)。正規化は、Transformerの各サブレイヤーの出力ではなく、入力に適用されます。このアプローチは、非常に深いネットワークの学習を安定させ、勾配に関する問題を防止します。
- RMSNorm (Root Mean Square Layer Normalization)。標準のLayerNormの代わりにRMSNormが使用されます。この正規化手法は、平均を引く操作を省くことで、安定性を維持しつつ計算を10~50%高速化します。
- SwiGLU (Swish-Gated Linear Unit)。活性化関数としてReLUやGELUの代わりにSwiGLUが使用されます。このゲーティングメカニズム(gating mechanism)は、より滑らかな勾配フローを生み出し、モデルの品質を向上させます。
- RoPE (Rotary Position Embeddings, 回転位置埋め込み)。トークンの位置をエンコードするために、相対的な位置埋め込みであるRoPEが適用されます。これにより、モデルは学習時に使用されたものより長いシーケンスに対しても、より良く外挿することができます。
- GQA (Grouped-Query Attention)。LLaMA 2で導入されたこの技術は、マルチヘッドアテンションの最適化であり、メモリ要件を大幅に削減し、テキスト生成を高速化します。
- Mixture-of-Experts (MoE) (LLaMA 4で計画中)。モデルのパラメータを「エキスパート」サブネットワークに分割し、各クエリに対してその一部のみをアクティブ化するアーキテクチャです。これにより、推論にかかる計算コストが劇的に削減されます。
LLaMA 1の構成
| モデル | パラメータ数 | 隠れ状態の次元数 | レイヤー数 | アテンションヘッド数 | 学習データ量 |
|---|---|---|---|---|---|
| 7B | 6.7B | 4096 | 32 | 32 | 1.0T トークン |
| 13B | 13.0B | 5120 | 40 | 40 | 1.0T トークン |
| 33B | 32.5B | 6656 | 60 | 52 | 1.4T トークン |
| 65B | 65.2B | 8192 | 80 | 64 | 1.4T トークン |
学習データ
学習コーパスの規模は、LLaMA 1の1.4兆トークンからLLaMA 3の15兆トークンへと増加しました。学習には、Common Crawl(データの最大67%を占める)、C4、GitHub、Wikipedia、Books、ArXiv、Stack Exchangeなどの公開ソースが使用されています。LLaMA 3では、高品質なプライベートデータも使用されました。
性能と比較
- ベンチマークにおいて: LLaMA 3.1 (405B) モデルはGPT-4oに近い結果を示しており、MMLUテストでは88.6%を達成し、GPT-4oにわずか0.1パーセンテージポイント差です。コード生成タスクHumanEvalでは、LLaMA 3.1は89%(GPT-4oは90.2%)を記録しています。
- パラメータ効率: LLaMAモデルは、より少ないパラメータ数で競合のより大規模なモデルを上回ることがよくあります。例えば、LLaMA 1 (13B) はほとんどのテストでGPT-3 (175B) を凌駕しました。
- コスト: ローカルでホスティングした場合、LLaMAの推論コストはプロプライエタリなAPIを使用する場合と比較して最大50倍低くなる可能性があり、中小企業にとって技術が利用しやすくなっています。
ライセンス
- LLaMA 1 は、非商用の研究用ライセンスに基づき、リクエストに応じてアクセスが提供されていました。
- LLaMA 2以降のバージョン は、商用利用と改変を許可するLlama Community Licenseの下で配布されています。ただし、このライセンスには制限があり、月間アクティブユーザー数が7億人を超える企業は、Metaから特別な許可を得る必要があります。この点は、LLaMAが完全にオープンなモデルであるかどうかについての議論を呼んでいます。
応用
LLaMAモデルは数千の企業製品に統合され、さまざまな分野で利用されています:
- 企業セクター: Zoomは会議の要約のためにAI CompanionでLLaMAを使用しています。Shopifyは商品メタデータの拡充のために1日あたり4000万~6000万件のリクエストを処理するために利用しています。Instacartは社内アシスタントAvaで利用しています。
- 科学と社会: Meditron(LLaMAの適応版)は、リソースが限られた地域での医療診断に利用されています。
- 公共セクターと産業: MetaはLockheed MartinやPalantirと提携を結んでいます。NASAは、地球との通信なしに重要な操作を実行するためのオフラインアシスタントとして、国際宇宙ステーション(ISS)でLLaMA 3を使用しています。
制約と批判
- 偏見と安全性: 独立した監査によると、LLaMAモデルは安全対策にもかかわらず、有害なステレオタイプを再現する可能性があることが示されています。LLaMA 1の重みの流出は、技術の悪意ある利用の可能性に関する問題を提起しました。
- 知識の欠落: 高度に専門化された分野では、LLaMAは知識の欠落を示すことがあります。例えば、医療テストnephSAPでの正解率は17~30%であったのに対し、GPT-4は73%でした。
- エネルギー消費: 大規模モデルの学習には膨大なリソースが必要です。LLaMA 1のトレーニングには2,638 MWhが必要で、これは1,015トンのCO₂排出量に相当します。
将来
Metaは2025年までにAIインフラに最大650億ドルを投資する計画です。開発中のLLaMA 4 Behemothモデルは2兆個のパラメータを持ち、200以上の言語をサポートし、メタバース製品との深い統合が予定されています。
参考文献
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Grattafiori, A. et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
- Jiang, Z. et al. (2023). Pre‑RMSNorm and Pre‑CRMSNorm Transformers: Equivalent and Efficient Pre‑LN Transformers. arXiv:2305.14858.
- Rozière, B. et al. (2023). Code Llama: Open Foundation Models for Code. arXiv:2308.12950.
- Shazeer, N. (2020). GLU Variants Improve Transformer. arXiv:2002.05202.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971.
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine‑Tuned Chat Models. arXiv:2307.09288.
- Zhang, B.; Sennrich, R. (2019). Root Mean Square Layer Normalization. arXiv:1910.07467.
注釈
関連項目
- GPT
- 大規模言語モデル
- トランスフォーマー(ニューラルネットワークアーキテクチャ)