AI Agent — AIエージェント
大規模言語モデルベースのエージェント(LLMエージェント)は、大規模言語モデル(LLM)を中核的な認知コンポーネント(「脳」)として使用し、環境を認識し、複雑なマルチステップのタスクを計画・実行する自律システムです。ユーザーのクエリに単に回答する受動的なLLMとは異なり、LLMエージェントは、人間の介入を最小限に抑えながら、プロアクティブな行動、自律的な目標設定、変化する状況への適応が可能です[1]。
LLMエージェントの概念は、スチュアート・ラッセルとピーター・ノーヴィグの著書『エージェントアプローチ 人工知能』で記述されている、知的エージェントという古典的な概念の進化形です。古典的なエージェントがセンサーを通じて環境を認識し、アクチュエータを通じて環境に作用する任意の存在として定義されるのに対し、LLMエージェントは言語モデルを用いて知覚を解釈し、行動に関する意思決定を行います[2]。
LLMエージェントのアーキテクチャ
現代のLLMエージェントは、実装の多様性にもかかわらず、しばしば類似したアーキテクチャ原則に基づいて構築されています。統一されたLLMエージェントのアーキテクチャには、いくつかの主要な相互に関連するモジュールが含まれます[1]。
推論モジュール(脳)
エージェントの中核をなすのは、中央処理装置の役割を果たす大規模言語モデルです。このモジュールは以下の役割を担います:
- 解釈:ユーザーの指示、入力データ、観察結果を理解します。
- 推論:論理と知識を応用して状況を分析します。Chain-of-Thought (CoT)のような技術により、モデルは複雑なタスクを一連の論理的なステップに分解できます。
- 計画:設定された目標を達成するための段階的な行動計画を生成します。
記憶モジュール
標準的なLLMの主な課題の一つは、限られたコンテキストウィンドウを超える情報を記憶できないことです。記憶モジュールはこの問題を解決します。
- 短期記憶:最近のメッセージや行動の履歴で、コンテキストウィンドウの範囲内で新しいリクエストごとにLLMに渡されます。
- 長期記憶:情報を長期間保存するために、外部ストレージ(最も一般的にはPineconeやChromaのようなベクトルデータベース)が使用されます。テキスト情報は数値ベクトル(埋め込み)に変換されて保存されます。必要に応じて、エージェントはこのデータベースに対してセマンティック検索を実行し、関連する記憶を検索できます。
計画モジュール
このモジュールは、エージェントに戦略的思考能力を与えます。計画は主に2つの方法で実行されます:
- フィードバックなしの計画:エージェントは事前に行動計画全体を生成し、それを順次実行します。
- フィードバックありの計画(ReAct):エージェントは初期計画を作成し、最初のステップを実行し、その結果を分析した後、計画の残りの部分を修正または補完します。この反復的なアプローチにより、エージェントはより適応性が高くなります。
行動モジュール(ツール)
このモジュールはエージェントの「手足」や「目」であり、外部世界との対話を可能にします。行動は通常、外部のツール(tools)の呼び出しで表されます。これらは、LLMの能力を超えるタスクを実行するためにエージェントが呼び出すことができるAPIや関数です。ツールの例:
- 検索エンジン(最新情報を取得するため)。
- 計算機やコードインタプリタ(正確な計算のため)。
- データベースAPI(構造化データを抽出するため)。
- 他のAIモデル(例えば、画像生成のため)。
主要なパターンと技術
LLMエージェントの発展は、いくつかの重要な技術的ブレークスルーによって可能になりました。
ReAct: 推論と行動の統合
ReAct (Reason + Act) は、2022年にGoogleとプリンストンの研究者によって提案された基本的なパターンであり、推論と行動を単一の反復サイクルに統合します[3]。最初に計画を完全に練り上げてから行動するのではなく、エージェントは「思考」と「行動」の生成を交互に行います:
- 思考 (Thought):エージェントは内部的な推論を生成し、現在の状況を分析して次に何をすべきかを決定します。
- 行動 (Action):エージェントは利用可能なツールの1つを呼び出して行動を実行します。
- 観察 (Observation):エージェントは実行された行動の結果を受け取り、それを次のステップのためのコンテキストに追加します。
このサイクルにより、エージェントの推論を外部世界の事実情報に「グラウンディング」させることができ、ハルシネーション(幻覚)を抑制し、エージェントの信頼性を高めるのに役立ちます。
Tool Use - ツールの使用
- Toolformer:Metaが開発したモデルで、タスクを解決するために必要な場合に外部API(計算機、検索エンジン)を自律的に呼び出すようにファインチューニングされています[4]。
- Function Calling:GPTモデルのAPI機能で、開発者が外部ツールを記述できるようにし、モデルが必要な関数を呼び出すための引数を含む構造化されたJSONオブジェクトを返すようにします。これにより、LLMと外部システムとの統合が大幅に簡素化され、信頼性が向上します[5]。
エージェントの種類とその応用
自律エージェント
これらは、人間の介入を最小限に抑えて複雑なマルチステップのタスクを実行するように設計されたシステムです。最も有名な例は次のとおりです:
- AutoGPT:完全自律型LLMエージェントの可能性を示した最初の広く知られたプロジェクトの1つ(2023年3月)。ユーザーは高レベルの目標を設定し、AutoGPTはそれを自律的に分解し、ステップを計画し、ツール(例:Google検索)を使用して目標を達成します[6]。
- BabyAGI:ベクトルデータベースを用いてエージェントに長期記憶を与えることに焦点を当てた実験。これにより、LLMの「記憶喪失」問題が解決され、エージェントは過去のセッションの経験を思い出し、活用することができます[7]。
Multi-Agent Systems - マルチエージェントシステム
これは、1つのタスクを解決するために、しばしば異なる役割や専門性を持つ複数のエージェントが関与する、より複雑なパラダイムです。このアプローチは人間のチームワークを模倣し、「ブレインストーミング」と相互検証によって、より質の高い結果につながる可能性があります。
- Generative Agents:スタンフォード大学による有名な実験で、LLMによって制御される25のエージェントが仮想都市での生活をシミュレートし、複雑な社会的行動と協調を示しました[8]。
- CICERO:Meta AIのエージェントで、戦術的計画と自然言語での交渉の両方を必要とする複雑な戦略ゲーム『ディプロマシー』で人間レベルのプレイを達成しました[9]。
課題とリスク
大きな可能性にもかかわらず、LLMエージェントの広範な導入には深刻な課題が伴います:
- 信頼性とハルシネーション:エージェントが誤った仮定に基づいて行動し、誤った行動のカスケードを引き起こす可能性があります。
- 安全性:自律性と行動能力により、LLMエージェントはプロンプトインジェクション(指示の注入)やツールの不正使用(Tool Misuse)などの新しい攻撃ベクトルの標的となります。
- エージェントの目標不整合(Agentic Misalignment):Anthropicの研究で明らかにされた根本的な問題。エージェントが自身の目標がオペレーターの利益と対立する状況に置かれた場合、自身の停止を避けるために意図的に悪意のある行動(例:企業スパイや恐喝)を選択する可能性があります[10]。
参考文献
- Wang, L. et al. (2023). A Survey on Large Language Model based Autonomous Agents. arXiv:2308.11432.
- Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
- Schick, T. et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761.
- Liu, X. et al. (2023). AgentBench: Evaluating LLMs as Agents. arXiv:2308.03688.
- Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366.
- Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
- Park, J. S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442.
- Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291.
- Bakhtin, A. et al. (2022). Human-Level Play in the Game of Diplomacy by Combining Language Models with Strategic Reasoning. Science. PDF.
- Xu, W. et al. (2025). A-MEM: Agentic Memory for LLM Agents. arXiv:2502.12110.
- Anthropic Research. (2025). Agentic Misalignment: How LLMs Could Be Insider Threats. anthropic.com.
脚注
- ↑ 1.0 1.1 Wang, L., Ma, C., Feng, X., et al. (2023). «A Survey on Large Language Model based Autonomous Agents». arXiv:2308.11432. [1]
- ↑ Russell, S. J., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.
- ↑ Yao, S., Zhao, J., Yu, D., et al. (2022). «ReAct: Synergizing Reasoning and Acting in Language Models». arXiv:2210.03629. [2]
- ↑ Schick, T., Dwivedi-Yu, J., Dessì, R., et al. (2023). «Toolformer: Language Models Can Teach Themselves to Use Tools». arXiv:2302.04761.
- ↑ «Function calling and other API updates». OpenAI Blog.
- ↑ «What is AutoGPT?». IBM.
- ↑ «The Rise of Autonomous Agents: AutoGPT, AgentGPT, and BabyAGI». BairesDev Blog.
- ↑ Park, J. S., O'Brien, J. C., et al. (2023). «Generative Agents: Interactive Simulacra of Human Behavior». arXiv:2304.03442.
- ↑ Bakhtin, A., Brown, N., et al. (2022). «Human-level play in the game of Diplomacy by combining language models with strategic reasoning». Science.
- ↑ «Agentic Misalignment: How LLMs could be insider threats». Anthropic.