Gemma (Google) — ゲマ
Gemmaは、Google(Google DeepMind部門)によって開発・リリースされた、自由に利用可能な言語モデルのファミリーです。Gemmaモデルは、フラッグシップモデルであるGeminiファミリーと同じ研究・技術基盤に基づいており、その軽量で高性能なバージョンとして位置づけられています[1]。名称はラテン語で「宝石」を意味する gemma に由来します[2]。
Gemmaはopen models(オープンモデル)のカテゴリに属します。Googleはモデルの重みを公開しており、研究者や開発者は責任ある利用条件を遵守すれば、商用プロジェクトを含め、自由に利用、追加学習、配布することが可能です[2]。これは、クラウドAPIを介してのみアクセス可能なGeminiモデルとの重要な違いです。Gemmaモデルは、データセンターだけでなく、民生用ハードウェア(GPUを搭載したノートPCやデスクトップPC)上でローカルに動作させることができます[3]。
開発とリリース
Gemmaファミリーには複数の世代のモデルがあり、各世代でアーキテクチャ、パフォーマンス、機能が改善されてきました。
第1世代:Gemma 1
Gemmaの最初のバージョンは2024年2月21日にリリースされました[4]。これには、デコーダーのみのトランスフォーマーアーキテクチャに基づく2つのテキストモデルが含まれていました:
- Gemma 2B(20億パラメータ)
- Gemma 7B(70億パラメータ)
リリース当時、Googleはこれらのモデルが主要なベンチマークにおいて、はるかに大規模な類似モデルを上回ると主張していました[2]。元のモデルは主に英語でしたが、ウェブドキュメント、プログラムコード、数学的問題など、多様なデータで学習されていました[1]。両モデルは、基本版(pre-trained)と、ユーザーの指示により従うようにチューニングされた命令チューニング版(instruction-tuned)の2つのバリアントでリリースされました[2]。
第2世代:Gemma 2
Gemma 2は2024年6月27日に発表され、大幅な改善がもたらされました[1]。
- モデルサイズ:90億および270億パラメータのモデルがリリースされました。小規模なバリアントは、品質向上のために大規模モデルからの知識蒸留手法を用いて学習されました[5]。
- コンテキストウィンドウ:第1世代の8192トークンから80,000トークンへと大幅に拡張されました[6][7]。
- アーキテクチャの改善:長いコンテキストを効率的に扱うために、grouped-query attentionメカニズムと、ローカルアテンションとグローバルアテンションを交互に配置するスキームが導入されました[1]。
第3世代:Gemma 3
Gemma 3は2025年3月に、マルチモーダル性とタスク範囲の拡大に重点を置いたファミリーの次なるステップとして発表されました[6]。
- マルチモーダル性:モデルはテキストに加えて、画像や動画を入力データとしてサポートするようになりました。
- サイズと言語:モデルラインナップは4つのサイズ(1B, 4B, 12B, 27B)をカバーし、最大140言語をサポートします[6]。
- コンテキストウィンドウ:128,000トークンに増加しました[6]。
Googleによると、Gemma 3 27Bは、当時の最高のオープンモデルに匹敵する性能を示し、ランキングではDeepSeek-R1のような特化モデルにのみ劣るとされています[6]。
アーキテクチャと技術的特徴
Gemmaモデルは、GPTモデルと同様に、「デコーダーのみ」(decoder-only)構成のトランスフォーマーアーキテクチャに基づいています[7]。これは、モデルが先行するすべてのトークンに基づいて次のトークンを予測することで、自己回帰的にテキストを生成することを意味します。主要な技術的特徴は以下の通りです:
- ロータリーポジションエンべディング(RoPE):絶対位置エンべディングの代わりにRoPEを使用することで、位置情報を効率的にエンコードします。
- Multi-query attentionとGrouped-query attention:小規模モデル(例:Gemma 2B)では、高速化とメモリ節約のためにmulti-query attention(すべてのアテンションヘッドで単一のキー/バリューを使用)が採用されています。Gemma 2では、クエリをグループに分割するgrouped-query attentionメカニズムが導入され、速度と品質のトレードオフを実現しています[1][7]。
- 交互配置のアテンションスキーム:Gemma 2では、グローバルな自己注意層と限定的な「スライディングウィンドウ」を持つ層を交互に配置するスキームが実装されており、長いコンテキストを効率的に処理できます[1]。
モデルファミリーとバリアント
汎用的な基本モデルに加えて、Googleは特定のタスクに最適化されたいくつかの派生版Gemmaをリリースしています。
- CodeGemma:プログラムコードの生成と補完を行うモデルで、C++, C#, Go, Java, JavaScript, Python, Rustなどの言語をサポートしています[1]。
- DataGemma:RAG技術を用いて外部データと統合するために追加学習されたモデルファミリー。回答の事実精度を高めるために、データベース(例:Google Data Commons)への検索クエリを実行できます[1]。
- PaliGemma:画像とテキストを入力として受け取ることができるマルチモーダルモデル。画像のキャプション生成や物体認識など、視覚的な質問応答タスクを目的としています[1]。
- RecurrentGemma:ローカルアテンションと線形再帰結合を組み合わせたハイブリッドなGriffinアーキテクチャを持つ実験的なバリアント。これにより、長いシーケンスの生成を大幅に高速化できます[7]。
- MedGemma:医療分野向けのGemma 3の特化バージョン。医療画像(X線写真、スライス画像)や臨床文書を分析するためのマルチモーダル(4B)およびテキスト(27B)モデルが含まれます。モデルはオープンとして配布されますが、追加の検証なしに直接的な臨床使用を目的としたものではありません[8]。
- DolphinGemma:イルカのコミュニケーションを解読するためにGemmaの技術を応用する研究プロジェクト。長年にわたる音声記録で学習され、動物の言語におけるパターンを特定するために使用されます[9]。
利用可能性と応用
GemmaモデルはKaggleやHugging Faceのプラットフォームで利用可能であり、Google ColabやVertex AI Model Gardenのサービスにも統合されています[2]。推論を高速化するために、GoogleはNVIDIAと協力してモデルをTensorRTに適合させました。Gemmaのライセンス条件は、モデルの商用利用と改変を許可しており、他のいくつかのオープンプロジェクトとは異なります。配布はResponsible AI Licenseによって規制されており、特定の分野(例:兵器開発)での使用に制限を設け、派生製品がAIの安全かつ倫理的な応用の原則を遵守することを求めています[3]。
安全性と責任
開発者は、モデルのオープンな性質を考慮し、安全性の問題に大きな注意を払いました。
- データフィルタリング:学習データセットの準備段階で、個人データやその他の機密情報が自動的にフィルタリングされ、漏洩のリスクを低減しました[2]。
- アライメント(Alignment):命令チューニング版のモデルは、Supervised Fine-Tuning (SFT)やRLHF(人間のフィードバックからの強化学習)といった手法を用いて多段階のアライメントが行われ、望ましい応答スタイルを定着させました[1]。
- レッドチーミング(Red Teaming):リリース前に、モデルは悪意のあるプロンプトに対する耐性について詳細な検証を受けました。専門家が危険または望ましくないコンテンツの生成を誘発しようと試み、脆弱性を特定しました[3]。
- Responsible AI Toolkit:モデルと共に、Googleは安全なデプロイを容易にするためのツールキットをリリースしました。これには、モデルの内部状態を分析するためのGemma Debuggerユーティリティや、望ましくないコンテンツの分類器が含まれます[2]。
- ShieldGemma:Gemmaのマルチモーダル版において、安全でないコンテンツの生成を防ぐことを目的とした特化されたフィルターモデルです[6]。
外部リンク
参考文献
- Mesnard, T. et al. (2024). Gemma: Open Models Based on Gemini Research and Technology. arXiv:2403.08295.
- Rivière, M. et al. (2024). Gemma 2: Improving Open Language Models at a Practical Size. arXiv:2408.00118.
- Kamath, A. et al. (2025). Gemma 3 Technical Report. arXiv:2503.19786.
- Zhao, H. et al. (2024). CodeGemma: Open Code Models Based on Gemma. arXiv:2406.11409.
- Beyer, L. et al. (2024). PaliGemma: A Versatile 3B VLM for Transfer. arXiv:2407.07726.
- Steiner, A. et al. (2024). PaliGemma 2: A Family of Versatile VLMs for Transfer. arXiv:2412.03555.
- Botev, A. et al. (2024). RecurrentGemma: Moving Past Transformers for Efficient Open Language Models. arXiv:2404.07839.
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Chinnakonduru, S. S. & Mohapatra, A. (2024). Weighted Grouped Query Attention in Transformers. arXiv:2407.10855.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Radhakrishnan, P. et al. (2024). Knowing When to Ask — Bridging Large Language Models and Data. arXiv:2409.13741.
脚注
- ↑ 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 “What Is Google Gemma?”. IBM. [1]
- ↑ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 “Gemma: Google introduces new state-of-the-art open models”. Google Developers Blog. [2]
- ↑ 3.0 3.1 3.2 “Google's open-source Gemma AI models draw from the research behind Gemini”. The Verge. [3]
- ↑ “Google launches two new open LLMs”. TechCrunch. [4]
- ↑ “Gemma 2: Improving Open Language Models at a Practical Size”. Google.
- ↑ 6.0 6.1 6.2 6.3 6.4 6.5 “Google unveils open source Gemma 3 model with 128k context window”. VentureBeat. [5]
- ↑ 7.0 7.1 7.2 7.3 “Gemma explained: An overview of Gemma model family architectures”. Google Developers Blog. [6]
- ↑ “Google Releases MedGemma: Open AI Models for Medical Text and Image Analysis”. InfoQ. [7]
- ↑ “Google Is Training a New A.I. Model to Decode Dolphin Chatter—and Potentially Talk Back”. Smithsonian Magazine. [8]