Gemini (Google) — ジェミニ

From Systems analysis wiki
Jump to navigation Jump to search

Google Geminiは、Google DeepMindの研究部門が開発するマルチモーダル大規模言語モデル(LLM)のファミリーである。Geminiモデルは2023年12月に初めて発表され、テキスト、画像、音声、動画、プログラムコードを含む複数のモダリティのデータ処理・生成をネイティブにサポートするニューラルネットワークTransformerアーキテクチャに基づいて構築されている。

2026年2月現在、現行世代はGemini 3.xシリーズである。アーキテクチャの開発方針は、推論時のスケーラブルな推論メカニズム(inference-time scaling)の統合と、自律型エージェントシステム(Agentic AI)での使用に向けたモデルの最適化に重点を置いている。Geminiアプリの月間アクティブユーザー数は7億5,000万人を超える。

名称と理念

"Gemini"(ラテン語で双子座の意)という名称は、このプロジェクトの創設にあたりGoogleの二つの主要研究グループ——Google BrainとDeepMind——が統合されたことを象徴している。Google DeepMindの共同テクニカルリードであるJeff Deanは、2024年5月の公式ブログ記事でこれを確認している:「The twins here are the folks in the legacy Brain team and the legacy DeepMind team」。プロジェクトの当初のコードネームは「Titan」であり、Deanが「Gemini」の名を提案したのは2023年4月——Google BrainとDeepMindが正式に統合されたまさにその月であった。この名称はまた、NASAのジェミニ計画(1965–1968年)にも言及しており、アポロ計画への橋渡しとしての同計画の役割が開発チームの共感を得た。

Geminiの中核的特徴かつ哲学的基盤はネイティブ・マルチモダリティである。マルチモーダル機能を既存のテキスト基盤の上に追加した多くの先行モデルとは異なり、Geminiは異なる種類の情報の同時的な理解・操作・組み合わせを実現するためにゼロから設計された。Gemini 1.0テクニカルレポート(arXiv:2312.11805)は、同モデルが「trained jointly across image, audio, video, and text data」であることを確認している。これにより、モデルはモダリティ間でデータを変換するだけでなく、より深い全体論的理解を形成することが可能となる。

アーキテクチャと主要技術

Geminiモデルの能力は、一連の基本的なアーキテクチャ上の決定によって規定されている。GoogleはGeminiの全内部コンポーネントの完全な低レベル設計を公開していないが、公開情報源からアーキテクチャのクラスを特定することは可能である:1.5ファミリー以降の全モデルは、ネイティブ・マルチモーダルサポートを備えた疎な混合エキスパートTransformerベースのモデル(sparse mixture-of-experts transformer-based models)である(Gemini 2.5 Flashモデルカードにより確認済み)。

ネイティブ・マルチモーダル・アーキテクチャ

Geminiのアーキテクチャは早期融合(early fusion)の概念に基づいている。画像のピクセルパッチ、動画の時間フレーム、オーディオグラム、テキストトークンが統一された潜在空間に射影される。Gemini 2.5テクニカルレポートでは、このアプローチを「Unified Multimodal Token Interleaving」と表現している。異なるモダリティの全トークンが共有シーケンス内で処理されるため、標準的なセルフアテンション(self-attention)メカニズムが各層でモダリティ間のデータ統合を自然に実現する。音声信号は専用エンコーダが波形(waveform)から直接処理し、中間的なSpeech-to-Text変換システムを使用した場合に失われる音響特性(イントネーション、音色、背景ノイズ)を保持する。

Transformerクラスの基本的な演算はアテンションメカニズムである:

Attention(Q,K,V)=softmax(QKdk)V

ここでQはクエリ行列、Kはキー行列、Vはバリュー行列、dkはキーの次元数である。

疎な混合エキスパート(Sparse MoE)

バージョン1.5以降、Geminiモデルは疎な混合エキスパート(Sparse Mixture-of-Experts, MoE)アーキテクチャを採用している。Gemini 1.0は密な(dense)Transformerを使用しており、MoEへの移行は1.5のテクニカルレポートで明示的に記述されている:「This is our first release from Gemini 1.5, a new family… which incorporates a novel mixture-of-experts architecture」。

MoEアーキテクチャでは、標準的な全結合層(Feed-Forward Networks)が「エキスパート」と呼ばれる一連の専門化されたサブネットワークに置き換えられる。入力トークンxdに対して、出力yk個のアクティブなエキスパートの出力の重み付き和として計算される(kE、ここでEはエキスパートの総数):

y=i𝒯k(x)gi(x)Ei(x)

ここでEi(x)i番目のエキスパートの非線形関数、𝒯k(x)は選択されたk個のサブネットワークのインデックス集合、ルーティング重みgi(x)は学習されたルーティング関数(learned routing function)により上位k個の値にSoftmax関数を適用して計算される。

このアプローチにより、各トークンに対してパラメータのサブセットのみが活性化されるため、計算コスト(FLOPs)を低く抑えつつ、モデル全体のパラメータ容量を大幅に増加させることが可能となる。GoogleはGeminiモデルの実際のパラメータ数を公開していない。

長文脈とイン・コンテキスト学習

Gemini 1.5は、コンテキストウィンドウを本番モードで100万トークンまで拡張するという画期的な進歩を遂げた(実験的テストでは最大1,000万トークン)。これは以前のモデル(例えばGPT-4 Turboの128,000トークン)より1桁大きい。Googleは100万トークンのコンテキスト長でNeedle In A Haystackテストにおいて99%のスコアを報告している。後続の世代では、長文脈がシリーズの主要な特徴の一つとして定着した。この大規模コンテキストにより、モデルは以下が可能となる:

  • 書籍全体、数時間分の動画(最大3時間)、または大規模なコードベースを単一のクエリ内で分析する。
  • プロンプトで提供された大量のデータに対するイン・コンテキスト学習(in-context learning)を実行し、ファインチューニングなしに高度にカスタマイズされた回答を得る。

「思考モデル」と推論時計算スケーリング

Gemini 2.5以降、Googleはthinkingを独立した動作モードとして指定している。公式ドキュメントでは、これをマルチステップの計画立案と推論を改善する内部計算プロセスと定義している。バージョン2.5のモデル(「thinking models」と呼ばれる)は、最終回答を生成する前に内部で推論の中間ステップを生成・評価する能力を持つ。これにより、複雑な論理的・数学的タスクにおける精度が大幅に向上する。

二つのメカニズムを区別することが重要である:

  • 組み込み思考(Thinking):2.5および3シリーズのモデルの基本モード。隠れた思考連鎖(Chain-of-Thought)を生成する。APIはthought summaries——「生の思考」の完全なストリームではなく、内部推論の簡潔な要約——を返すことができる。モデル3.1 Proからは、思考バジェットがthinking_levelパラメータ(LowからMaxまでの値)で制御される。
  • Deep Think:並列仮説生成を使用し、大幅に多くの計算リソースを必要とする独立した実験的拡張推論モード。2025年5月20日のGoogle I/Oで発表され、2025年8月1日にAI Ultraサブスクライバーに提供開始。Deep Thinkは基本のthinkingメカニズムと混同すべきではない。

エージェント機能(Agentic Capabilities)

バージョン2.0以降、Geminiは外部世界と対話可能になった:ツールの呼び出し、Google検索の実行、コードの実行、UI要素の操作。GoogleはGemini 2.0を「新たなエージェント時代」(agentic era)のためのモデルとして明確に位置づけ、ネイティブなツール使用(tool use)サポートを備えている。

2026年2月現在、Gemini APIには正式に確立されたエージェント機能レイヤーが含まれ、以下のツールをサポートしている:Google SearchGoogle MapsCode ExecutionURL ContextComputer UseFile Search、およびリアルタイム双方向インタラクションのためのLive API

Geminiモデルの進化

Geminiファミリーは極めて急速なペースで進化している:2023年12月から2026年2月までの間に、4つの主要世代のモデルがリリースされた。

Gemini 1.0(2023年12月)

ネイティブ・マルチモダリティの基礎を築いた第一世代。2023年12月6日に公開された。

  • バージョン: Ultra(最も複雑なタスク向けフラッグシップ)、Pro(汎用モデル)、Nano(モバイルデバイス向けコンパクト版;18億パラメータのNano-1と32.5億パラメータのNano-2に細分化)。
  • コンテキストウィンドウ: 全バージョンで32,768トークン
  • 成果: Gemini 1.0 Ultraは、MMLUベンチマークで人間の専門家レベルを初めて達成・超越したモデルとなり、90.04%のスコアを記録した(CoT@32技法——32サンプルの思考連鎖と多数決投票を使用;標準的な5ショットプロンプティングではスコアは約83.7%)。32の学術ベンチマーク中30でSOTA結果を達成。
  • サポート終了: Gemini 1.0 Proは2025年2月18日に非推奨化された。

Gemini 1.5(2024年2月〜5月)

コンテキスト長と効率における画期的な進歩。

  • アーキテクチャ: 密なTransformerからMixture-of-Experts(MoE)への移行。
  • コンテキストウィンドウ: 本番環境で最大100万トークン(1.5 Proではウェイトリスト経由で200万、2024年5月のGoogle I/Oで発表)。
  • バージョン: 1.5 Pro(2024年2月発表;1.0 Ultraレベルの品質を大幅に低いコストで実現)および1.5 Flash(軽量高速版、2024年5月追加)。
  • サポート終了: 全Gemini 1.5モデル(Pro、Flash、Flash-8B)は2025年9月29日に停止された。

Gemini 2.0(2024年12月〜2025年2月)

「エージェント時代」への移行。

  • タイムライン: 2024年12月11日——2.0 Flash Experimental発表(マルチモーダル入力、テキスト出力);2025年2月5日——2.0 Flashの一般提供(GA)、2.0 Pro Experimentalおよび2.0 Flash-Liteのリリース。
  • 主要イノベーション: 組み込みエージェント機能(tool use)、ネイティブな画像・音声生成(当初はアーリーアクセスパートナー向けの限定モード)、エージェントシナリオへの指向。
  • コンテキストウィンドウ: 最大200万トークン(2.0 Pro);最大100万トークン(2.0 Flash-Lite)。
  • サポート終了: 2.0 FlashおよびFlash-Liteモデルは2026年6月1日に停止予定。

Gemini 2.5(2025年3月〜6月)

設定可能な推論バジェットを備えた初の「思考モデル」(thinking model)。

  • タイムライン: 2025年3月25日——2.5 Pro Experimental発表;4月17日——2.5 Flash(思考機能の切り替えが可能な初の完全ハイブリッド推論モデル);5月20日(Google I/O)——2.5 ProおよびFlashの更新、Deep Think発表;2025年6月17日——2.5 Proおよび2.5 Flashの同時GA;同日——2.5 Flash-Liteプレビュー(7月22日にGA)。8月1日——Deep ThinkがAI Ultraサブスクライバーに提供開始。
  • 主要イノベーション: 設定可能なバジェットを備えた組み込み「思考」(thinking)メカニズム;独立した拡張モードとしてのDeep Think。複雑な数学・論理・プログラミングベンチマークでのSOTA結果(AIME 2025——86.7%、GPQA Diamond——84.0%、Humanity's Last Exam——18.8%(ツールなし))。
  • コンテキストウィンドウ: 100万トークン入力、最大64,000トークン出力。2.5 Proの200万トークンへの拡張の約束は、モデルのライフサイクル中に実装されたことが確認されなかった。
  • 専門バリアント: Gemini 2.5 Flash Image(コードネーム「Nano Banana」、8月12日にArenaに匿名で出現、2025年8月26日に正式リリース——フォトリアリスティックな「3Dフィギュア」画像でバイラルに拡散し1,000万人の新規ユーザーを獲得);Computer Use Preview(2025年10月7日、2.5 Proベース);テキスト読み上げモデル(2.5 Flash TTS、2.5 Pro TTS)。
  • テクニカルレポート: 統合版Gemini 2.Xレポートが2025年7月7日にarXivで公開(arXiv:2507.06261)、3,300人以上の著者を記載、2.5 Pro、2.5 Flash、2.0 Flash、2.0 Flash-Liteモデルをカバー。

Gemini 3.x(2025年11月〜2026年2月)

第三世代は、基本的な生成から長時間のエージェントワークフロー(agentic workflows)および学際的な科学問題の解決への移行を示した。

  • Gemini 3 Pro(2025年11月18日): AlphabetのCEO Sundar PichaiおよびDeepMindのCEO Demis Hassabisにより「Googleの最も知的なモデル」として発表。ローンチ当日にGoogle検索に展開された初のGeminiモデル。LMArenaで1,500 Eloの壁を突破した初のモデル(ローンチ時1,501)。結果:GPQA Diamond——91.9%;SWE-bench Verified——76.2%;Humanity's Last Exam——37.5%(ツールなし);SimpleQA——72.1%。
  • Gemini 3 Flash(2025年12月17日): Geminiアプリのデフォルトモデルに。入力100万トークンあたり0.50ドルの価格で、SWE-bench Verifiedで3 Proを上回り(78%)、推論タスクでのトークン使用量を30%削減。GPQA Diamond——90.4%;HLE——33.7%。
  • Gemini 3.1 Pro(2026年2月19日): 公開日時点でのフラッグシップモデル。初の増分「.1」バージョン(以前の世代は.5間隔を使用)。主要結果——ARC-AGI-2:77.1%(3 Proの31.1%の2倍以上)。AIME 2025——91.2%;GPQA Diamond——94.3%;SWE-bench Verified——80.6%。thinking_levelパラメータによる新しいMEDIUM思考レベルの導入。bashターミナルとカスタム関数用の専用エンドポイントgemini-3.1-pro-preview-customtools。長い生成における出力切り詰め問題の解決。チャネル:Gemini App、Vertex AI、AI Studio、Gemini API、NotebookLM。
  • Gemini 3 Deep Think(2026年2月12日更新): 専門的「思考」モードの大型アップデート。数学・プログラミングを超えた領域への拡張:2025年の国際物理オリンピック(IPhO)および国際化学オリンピック(IChO)でゴールドメダル級の成績;ARC-AGI-2——84.6%Humanity's Last Exam——48.4%;CMT-Benchmark(凝縮系理論物理学)——50.5%;Codeforces Elo——3,455。Deep Thinkベースの研究エージェントAletheiaがErdős問題コレクションの複数の未解決問題(Erdős-1051予想を含む)を自律的に解決。

Gemini世代一覧表

Geminiモデルの主要特性の進化
世代 リリース年 主要バージョン 最大コンテキストウィンドウ 主要なアーキテクチャ上のイノベーションと改善
Gemini 1.0 2023年 Ultra、Pro、Nano 32,768トークン ゼロからのネイティブ・マルチモダリティ;密なTransformer;MMLUで人間の専門家を超越(90.04% CoT@32)。
Gemini 1.5 2024年 Pro、Flash 100万トークン(ウェイトリストで200万) Mixture-of-Experts(MoE)アーキテクチャ;革命的なコンテキスト拡張;Needle In A Haystack 99%。
Gemini 2.0 2024〜2025年 Pro、Flash、Flash-Lite 100万〜200万トークン 「Agentic AI」時代:ネイティブツール統合、画像・音声生成、Live API。
Gemini 2.5 2025年 Pro、Flash、Flash-Lite 100万トークン(入力)、64,000(出力) 「思考モデル」(thinking model);設定可能な推論バジェット;Deep Think;画像生成(Nano Banana);Computer Use。
Gemini 3.x 2025〜2026年 3 Pro、3 Flash、3.1 Pro、3 Deep Think 100万トークン エージェントワークフロー;thinking_levelパラメータ;ARC-AGI-2および科学オリンピックでの飛躍的進歩;Aletheia。

主要成果とベンチマーク

MMLU等の従来ベンチマークの飽和に伴い、Geminiモデルの性能評価は抽象推論、科学モデリング、自律ソフトウェアエンジニアリングのタスクへと移行している。結果はGoogleの公式データ(自己報告)に基づく;比較は推論モード、ツール使用の有無、サンプリング手法(単一試行 vs. 多数決投票)、および特定のmodel-idが一致する場合にのみ有効である。

Geminiモデルの主要ベンチマーク結果(2026年2月時点のデータ)
ベンチマーク タスク概要 Gemini 2.5 Pro(2025年6月) Gemini 3 Pro(2025年11月) Gemini 3.1 Pro(2026年2月) Gemini 3 Deep Think(2026年2月)
MMLU マルチタスク言語理解
GPQA Diamond 博士課程レベルの科学問題 84.0% 91.9% 94.3% N/A
Humanity's Last Exam 専門分野のフロンティア知識 18.8% 37.5% 44.4% 48.4%
ARC-AGI-2 抽象的論理推論パズル 4.9% 31.1% 77.1% 84.6%
SWE-bench Verified GitHubリポジトリの自律的問題解決 63.8%* 76.2% 80.6% N/A
AIME 2025 オリンピックレベルの数学問題 86.7% 91.2%
Codeforces(Elo) 競技プログラミングレーティング 2,887 3,455

* 2.5 ProのSWE-benchの結果はカスタムエージェントセットアップ(custom agent setup)を使用して得られたものである。

LMArenaランキング(2026年2月下旬のスナップショット)

LMArena(旧Chatbot Arena)は、独立したブラインドペアワイズ投票プラットフォームである。ランキングは動的に再計算され、モデルのローンチ時の値と現在の値は異なる場合がある。

Overall(スナップショット:2026年2月24日)
モデル スコア 順位 投票数 備考
Gemini 3.1 Pro Preview 1,500 ± 9 #3 4,060 暫定
Gemini 3 Pro 1,486 ± 4 #5 37,854
Gemini 3 Flash 1,473 ± 5 #7 28,847
Gemini 2.5 Pro 1,464 ± 3 #9 97,296
Gemini 2.5 Flash 1,411 ± 3 #64 96,163

2025年11月18日のローンチ時、Gemini 3 Proは1,501 Eloのスコアに到達し、LMArenaで1,500の壁を破った初のモデルとなった。

専門化システムとエージェント

Geminiエコシステムは、デジタルおよび物理環境でマルチステップの操作を実行できるモデルおよびプラットフォームで拡張されている。

自律エージェント

  • Jules——セキュアなクラウドVM上で非同期に動作する自律コーディングエージェント。GitHub上でブランチの作成やプルリクエストを実行する。2025年5月20日のGoogle I/Oでパブリックベータに入り(ベータ期間中に140,000件以上のコード改善を実施)、2025年8月6日にGA。2025年末までにGoogleの内部リポジトリへの最大の貢献者の一つとなった。
  • Project Mariner——マルチステップのWebタスク向けブラウザベースのエージェント研究プロトタイプ。最大10の並列タスクをサポートするクラウドVMに移行し、「Teach & Repeat」機能を搭載。WebVoyagerベンチマークで83.5%を達成。Computer Use機能はGemini APIに移植された。
  • Google Antigravity——2025年11月に発表されたAIエージェント管理用統合開発環境(IDE)。エージェントが自律的にコードを修正し、ターミナルや組み込みブラウザと対話し、検証可能なアーティファクト(コードdiff等)を開発者の承認用に返す。
  • Aletheiaエージェント——Gemini 3 Deep Thinkに基づく専門的な数学研究エージェント。自然言語検証モジュールと文献調査用Web検索ツールを装備。2026年初頭、Erdős問題コレクションの複数の未解決数学問題を自律的に解決し、科学論文の共著者となった。

コンシューマー向けAIエージェント

  • Phone Automations——Androidオペレーティングシステムレベルでの自律エージェント統合(Pixel 10およびSamsung Galaxy S26向けベータ版)。セキュアサンドボックス内で動作し、視覚的なGUI分析に基づいてサードパーティアプリをナビゲート可能。
  • Gemini in Chrome(Auto Browse)——マルチステップのWebタスク自動化用ブラウザエージェント。2025年9月より全Chromeユーザーに提供開始(2026年1月にGemini 3へ更新)。

Computer Use

Gemini 2.5 Computer Useモデルはグラフィカルユーザーインターフェース(GUI)の操作に最適化されている。システムはスクリーンショットと操作履歴を入力として受け取り、プログラム的なカーソルシミュレーションおよびキーボード入力コマンドのための座標(x,y)を生成する。

Gemini Robotics

2025年3月に発表されたVision-Language-Action(VLA)およびEmbodied Reasoning(ER)クラスのモデル。これらのアーキテクチャは時空間情報を処理し、ロボットマニピュレータの3D運動軌跡をネイティブ出力モダリティとして予測する(arXiv:2503.20020)。

専門生成モデル(2026年初頭)

  • Nano Banana 2(Gemini 3.1 Flash Image)——2026年2月26日リリース;Flashアーキテクチャの速度とProレベルの品質を組み合わせたビジュアルモデル。異なるシーン間で厳密なキャラクター一貫性を確保し、画像内でのネイティブタイポグラフィ生成、C2PAメタデータ付きSynthID暗号透かしの統合を実現。
  • Lyria 3——2026年2月18日にGeminiアプリに統合された音楽モデル。テキストプロンプト、アップロードされた写真または動画から30秒の楽曲(ボーカルおよび楽器を含む)を生成。
  • Veo 3.1——動画生成モデル。最大3枚の参照画像を使用したクリップ作成(「Ingredients to Video」)、指定された最初と最後のフレーム間のトランジション生成、ネイティブな縦型動画レンダリング(9:16)、4K解像度へのアップスケーリングをサポート。
  • Med-Gemini——医療分野向けドメイン特化モデル(arXiv:2404.18416, arXiv:2405.03162)。

アプリケーションとエコシステム

GoogleはGeminiを自社のコンシューマー製品および開発者プラットフォームに深く統合している。

コンシューマー製品

  • Geminiアプリ:GeminiファミリーのモデルをユニバーサルなAIアシスタントとして使用するチャットボット(旧称Bard、2024年2月8日に改名)。2026年2月現在、7億5,000万人以上のアクティブユーザーを擁する。現在のロールアウトには3.1 Proモデルが含まれる。サブスクリプション:Google AI Pro(月額19.99ドル、Google One AI Premiumに代わる)およびGoogle AI Ultra(月額249.99ドル、Deep Think、Veo 3、優先機能へのアクセスを含む)。
  • Google Workspace:GeminiがGmail、Docs、Sheets、Meetに統合され、文書作成支援、データ分析、コンテンツ生成を提供(Duet AIから改名)。
  • Google検索AI Overviews機能が専門的なGeminiモデルを使用して複雑なクエリに対する要約回答を生成。2025年のGoogle I/Oで発表されたAI Modeは、エージェント機能(予約、ショッピング)を備えたディープ検索を提供。
  • AndroidおよびPixelGemini Nano(v3はTensor G5チップ搭載のPixel 10上で動作、2025年8月)がスマートフォン上でローカルに実行され、スマート返信、要約、詐欺電話検出、アクセシビリティ機能を提供しつつ、データのプライバシーを保護。開発者向けML Kit GenAI APIがオンデバイスでの要約、校正、音声認識をサポート。
  • NotebookLM:ノートツールから包括的なクリエイティブプラットフォームへと進化。2025年3月にGoogle Workspaceに統合。インタラクティブなAudio Overviews、Video Overviews、マインドマップ、スライド、インフォグラフィックをサポート。2025年12月にGemini 3にアップデート;2026年2月よりチャットで100万トークンのフルコンテキストウィンドウを実現。
  • Gemini Live:Project Astraのカメラおよび画面共有機能が全Android/iOSユーザーに無料提供。

開発者プラットフォーム

  • Google AI StudioおよびGemini API:API経由でGeminiモデルにアクセスするための主要インターフェース。2026年2月現在、以下の機能ブロックをサポート:Thinking、Thought signatures、Long context、Tools and agents(Google Search、Maps、Code Execution、URL Context、Computer Use、File Search、Deep Research、Live API)。
  • Vertex AI:高度なセキュリティおよび管理機能を備えたエンタープライズプラットフォーム。
  • Google Gen AI SDK:2025年5月にPython、JavaScript/TypeScript、Go、JavaでGAに到達、Gemini Developer APIおよびVertex AIへの統一アクセスを提供。Model Context Protocol(MCP)をサポート。
  • Gemini CLI:ターミナルでのAIコーディング用コマンドラインツール(2025年6月リリース)。
  • Interactions API:モデルとエージェントの統一インターフェース(2025年12月よりベータ版)。

APIライフサイクルとバージョン管理

API内のGeminiモデルはstablepreviewlatestexperimentalのカテゴリに分類される。特定のmodel_idとモデルファミリーは同一ではない;本番シナリオでは、具体的なバージョンとそのサポート期間への紐付けが重要である。APIドキュメントはシャットダウン日を記載した非推奨レジストリを維持している。

長時間の自律タスクをサポートするために、以下が導入された:Session Resumption(サーバーサイドのセッション状態ストレージ、最大24時間)およびContext Compression(制限超過時の自動コンテキスト圧縮のためのスライディングウィンドウメカニズム)。

2025年12月、Googleは事前告知なしにフリーティアのAPIクォータを約92%削減し、開発者コミュニティから強い反発を招いた。一方、モデルの最適化により、Geminiのサービングユニットコストは2025年を通じて78%低下した。

制限事項と未解決の問題

  • ハルシネーションとコンファビュレーション: モデルは、特にグラウンディング機能(Search Grounding)が無効化されている場合、事実と異なる情報を生成する傾向を依然として持つ。Gemini 3.1 ProはSimpleQAベンチマークで以前のバージョンと比較してハルシネーション率を低下させたが、この問題は全LLMにとって構造的課題である。
  • 無意識の剽窃(Subconscious Plagiarism): Aletheiaエージェントの実験により、モデルが訓練データセットから非自明な証明を再現し、それを自律的な発見として提示する問題が明らかになり、AI研究における新規性の検証を困難にしている。
  • 長文脈における劣化: 100万トークン以上のコンテキストを処理する際、モデルは「Lost in the Middle」効果の影響を受ける——文書の中央に位置する事実の抽出精度が低下する現象である。
  • 高い計算コスト: Deep Thinkの最大設定での推論は大幅に多くの時間とリソース(TPU)を必要とし、同期的なリアルタイムシナリオでの適用を制限する。
  • 偽陽性の拒否(Over-refusals): 厳格なアライメントアルゴリズムにより、推論モデルは正当なリクエストを潜在的に危険であると誤分類して拒否する傾向がある(特にコード分析および情報セキュリティの文脈において)。モデルカードでは拒否時の「説教的な」(preachy)トーンの問題も指摘されている。
  • 推論の限界: 2.5および3シリーズのモデルカードは、因果理解(causal understanding)、複雑な論理的推論(complex logical deduction)、反事実的推論(counterfactual reasoning)における制限、および思考バジェット遵守の不完全な予測可能性を列挙している。

倫理的側面と安全性

Geminiモデルの展開には多層的なセキュリティシステムが伴う。

汎用フレームワーク

Secure AI Framework(SAIF)はAIシステムのセキュリティに対するGoogleの一般的なアプローチであり(2023年6月発表)、開発の背景を形成するがGemini固有の基準ではない。Frontier Safety Framework v3(2025年9月)はCBRN、サイバーセキュリティ、ML研究開発、有害な操作、ミスアライメントリスクへの探索的アプローチを網羅している。

Gemini固有の対策

  • モデルカード(Model cards)は、特定のモデルの制限事項と安全性に関する情報の主要な情報源である。意図された使用法と制限事項、倫理とコンテンツの安全性、フロンティアセーフティに関するセクションを含む。Gemini 3 Proのモデルカードは、同モデルがCBRNおよびサイバーセキュリティの分野でクリティカル・ケイパビリティ・レベル(Critical Capability Level)に達していないことを確認している。
  • バイアスと有害性のテスト: 訓練データおよびコンテンツ生成におけるバイアスの分析と軽減。
  • レッドチーミング(Red Teaming): 脆弱性と望ましくない動作を特定するための攻撃シミュレーション。独立したミスアライメントテストでは「状況認識の若干の増加」が見られたが、重大なリスクは確認されなかった。

セーフティプローブ(Safety Probes)

有害コンテンツの生成を防止するために、隠れ活性化の分類が使用される。長いコンテキストでの信号喪失の問題を解決するためにMultiMaxアーキテクチャが採用されている:プローブはシーケンスni内の各トークンjについて、全層Hにわたる最大値を抽出する:

fMultiMax(Si)=h=1Hmaxj[ni][vhyi,j]

プローブはベースモデルとカスケード分類器として組み合わされ、低い計算コストでフィルタリング精度を向上させる(arXiv:2601.11516)。

暗号透かし(SynthID)

Live API経由で生成された音声データおよび画像(Nano Banana/Flash Imageモデル由来)はSynthIDアルゴリズムで標識される。ピクセルまたは音声スペクトラムレベルに不可視の透かしが埋め込まれ、生成コンテンツの機械的検出を可能にする。Nano Banana 2モデル(2026年2月)はSynthIDをC2PAメタデータと統合している。

Thinkingと透明性の問題

思考モードを持つモデル(2.5/3シリーズ)はthought summaries——中間トークンの完全なストリームではなく、内部推論の簡潔な要約——を返すことができる。これはある程度の透明性を提供するが、実際の「生の」推論連鎖が簡略化された要約の裏に隠されているとして批判されている。

規制面

EU人工知能法(EU AI Act)の枠組みにおいて、GoogleはOpenAIおよびAnthropicとともにEU AIプラクティスコード(2025年7月10日公表)に署名した。Geminiはシステミックリスクを伴う汎用人工知能(GPAI)モデルに分類されており、追加の安全義務が課されている(2025年8月2日より適用)。

競争環境

2025年11月から12月はAI史上最も圧縮された競争サイクルとなった:Gemini 3 Pro(11月18日)、AnthropicのClaude Opus 4.5(11月24日)、OpenAIのGPT-5.2(12月11日)がすべて24日以内にリリースされた。2026年2月時点で、すべてのカテゴリを支配する単一のモデルは存在しない:Gemini 3 ProがLMArenaのテキスト、ビジョン、検索、多言語でリード;GPT-5.2が純粋な数学(AIME 2025でツールなし100%)とSWE-bench Proでリード;Claude Opus 4.5がSWE-bench Verifiedで競争力を持つ。API価格において、Geminiは同等のAPIコールでGPT-5より約42%安価である。

ビジネス指標

Alphabetの2025年第4四半期決算報告(2026年2月4日公表)によると:Google Cloudの四半期収益は177億ドル(前年同期比+48%);営業利益率は29.9%;Cloudのバックログは2,400億ドル(前年比倍増)に達した。12万社以上の企業がGeminiを使用している。2026年1月、AppleはGeminiをSiriに統合する計画を発表した。GoogleはAPI経由で毎分100億トークン以上を処理している。Googleの内部AIエージェントは自社コードの約50%を生成している。2026年の設備投資は1,750億〜1,850億ドル(2025年の914.5億ドルのほぼ倍増)が計画されている。

外部リンク

参考文献

Gemini主要テクニカルレポート

  • Gemini Team, Google (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
  • Gemini Team, Google (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
  • Comanici, G. et al. (2025). Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities. arXiv:2507.06261.

専門モデルとアプリケーション

  • Saab, K. et al. (2024). Capabilities of Gemini Models in Medicine. arXiv:2404.18416.
  • Yang, L. et al. (2024). Advancing Multimodal Medical Capabilities of Gemini. arXiv:2405.03162.
  • Gemini Robotics Team (2025). Gemini Robotics: Bringing AI into the Physical World. arXiv:2503.20020.
  • Feng, T., Trinh, T., Bingham, G. et al. (2026). Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems. arXiv:2601.22401.
  • DeepMind Research Team (2026). Building Production-Ready Probes For Gemini. arXiv:2601.11516.
  • Fu, Y., Wang, X., Tian, Y., Zhao, J. (2025). Deep Think with Confidence. arXiv:2508.15260.

背景文献(サーベイおよび手法)

  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
  • Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
  • Zhang, Z. et al. (2023). Multimodal Chain-of-Thought Reasoning in Language Models. arXiv:2302.00923.
  • Cai, W. et al. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv:2407.06204.
  • Dai, Z. et al. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. arXiv:1901.02860.
  • Ding, J. et al. (2023). LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv:2307.02486.
  • Yin, S. et al. (2024). A Survey on Multimodal Large Language Models. arXiv:2306.13549.
  • Wang, X. et al. (2023). Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey. arXiv:2302.10035.
  • Chen, Q. et al. (2025). Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models. arXiv:2503.09567.

Google公式ブログ記事