Self-consistency prompting — 自己整合性プロンプティング

自己整合性デコーディング（英語: Self-Consistency Prompting, SC）は、プロンプトエンジニアリングにおけるデコーディング手法または戦略であり、算術や論理パズルなど、多段階の推論を必要とするタスクにおいて、大規模言語モデル (LLM)の精度と信頼性を向上させることを目的としています^[1]。この手法は、2022年にGoogle Researchの研究者たちによって、「思考の連鎖」(Chain-of-Thought, CoT) 技術の改良として提案されました。

その主なアイデアは、単一の「貪欲な」出力に限定するのではなく、同じ問題に対して多数の異なる推論パスを生成し、それらのパスの中から最も頻繁に出現する最終的な答えを選択するというものです。このアプローチは、「もしモデルが異なる方法で推論しても繰り返し同じ結果にたどり着くのであれば、その結果は高い確率で正しい」という直感的な原則に基づいています^[1]。

背景と前提

Self-Consistency手法は、Chain-of-Thought (CoT)技術を直接的に発展させたものです。Weiら(2022)によって提案されたCoT技術は、モデルに解決のステップを明示的に記述させることで、LLMが複雑な問題を解決する能力を大幅に向上させました^[2]。しかし、基本的なCoTの実装では「貪欲デコーディング」(greedy decoding)が使用され、各ステップで最も可能性の高い次のトークンが選択されます。これにより、「モデルが初期段階で間違いを犯した場合、その誤った軌道から逸脱して修正することができない」という制約が生まれます。Self-Consistencyは、まさにこの問題を解決するために提案されました^[1]。

動作の仕組み

Self-Consistencyのアルゴリズムは、決定論的な貪欲アプローチを「サンプリングとそれに続く集約」という手順に置き換えるもので、以下のステップで構成されます^[1]：

複数の推論パスの生成：単一の回答ではなく、思考の連鎖の手法を用いて、同じプロンプトに対してモデルが複数回（例えば最大40回）解答を生成します。多様な推論パスを得るために、温度サンプリング（温度パラメータ > 0）などの確率的なデコーディング手法が適用されます。
回答の集約と選択：生成されたすべての思考の連鎖から、最終的な答え（例えば、数値）のみが抽出されます。次に、これらの答えの中から最も頻繁に出現するものが選択されます。この答えが最終的な出力として提供されます。

このアプローチは「自己アンサンブル」の原則を模倣しており、同じモデルからの多数の出力を利用して信頼性を高め、偶発的なエラーを平滑化します^[3]。

有効性と結果

原著論文において、Self-Consistencyは多くの著名なベンチマークで精度の大幅な向上を示し、特に算術的および論理的な推論を必要とするタスクでその効果が顕著でした。

数学問題のベンチマークGSM8Kにおいて、PaLM-540Bモデルの精度は56.6%（CoT使用時）から74.4%（Self-Consistency使用時）に向上し、17.8%の改善が見られました。
SVAMPやAQuAといった他の算術タスクでは、それぞれ11.0%、12.2%の向上がありました。
StrategyQAのような論理と常識を要するタスクでは、6.4%の改善が見られました^[1]。

Self-Consistencyの適用により、GPT-3 175BやPaLM 540Bなどの大規模モデルを使用して、多くのベンチマークで新たな最高性能（state-of-the-art）が達成されました^[1]。

利点と限界

利点

精度の向上：複雑な多段階の推論を必要とするタスクにおいて、結果を大幅に改善します。
信頼性：単一の思考の連鎖で発生しうるエラーに対して、より頑健です。
実装の容易さ：モデルの追加学習やアーキテクチャの変更を必要としません。この手法は、既存のモデルに対する単純な「ラッパー」として実装できます。

限界

高い計算コスト：主な欠点は、単一のプロンプトに対して複数回（例えば10回、20回、40回）回答を生成する必要があることで、これにより推論の時間とコストが比例して増加します。
限定的な適用性：標準的な手法は、多数決投票を容易に行える、明確に定義された回答形式（数値、「はい/いいえ」、リストからの選択など）を持つタスクで最も効果的です。回答の形式がユニークである自由形式の生成タスク（エッセイの執筆、要約など）にはあまり適していません。
システマティックエラーのリスク：モデルが体系的に誤った推論を生成し、それが偶然にも同じ不正解に収束してしまう場合、Self-Consistencyはエラーを修正するどころか、その誤りに対する確信を強めてしまいます。

手法の発展: Universal Self-Consistency

自由形式の回答を伴うタスクにおける基本手法の限界は、その後の研究で対処されました。2023年末、Google DeepMindの研究者グループはUniversal Self-Consistency (USC)というアプローチを提案しました^[4]。

USCでは、最終的な回答に対する単純な多数決の代わりに、LLM自体を「審判」として集約に利用します。モデルは複数の完全な解答の選択肢を生成した後、その中から「最も整合性が高い」または「最も品質が高い」ものを選ぶよう求める新しいプロンプトを受け取ります。このアプローチにより、自己整合性の原則をオープンで創造的な回答形式のタスクに適用することが可能になります^[5]。

外部リンク

Self-Consistency Improves Chain of Thought Reasoning in Language Models - Google Researchによる原著論文。
Self-Consistency - Prompt Engineering Guideのガイド。

参考文献

Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
Aggarwal, P. et al. (2023). Let’s Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs. arXiv:2305.11860.
Chen, X. et al. (2023). Universal Self-Consistency with Large Language Models. arXiv:2311.17311.
Knappe, T. et al. (2024). Semantic Self-Consistency: Enhancing Language Model Reasoning via Semantic Weighting. arXiv:2410.07839.
Liang, X. et al. (2024). Internal Consistency and Self-Feedback in Large Language Models: A Survey. arXiv:2407.14507.
Li, T. et al. (2024). Improving Faithfulness of Large Language Models in Summarization via Sliding Generation and Self-Consistency. arXiv:2407.21443.
Byerly, A.; Khashabi, D. (2024). How Effective Is Self-Consistency for Long-Context Problems?. arXiv:2411.01101.
Novikova, J. et al. (2025). Consistency in Language Models: Current Landscape, Challenges, and Future Directions. arXiv:2505.00268.
Admoni, S. et al. (2025). Towards Large Language Models with Self-Consistent Natural Language Explanations. arXiv:2506.07523.

脚注

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Wang, X., Wei, J., Schuurmans, D., et al. (2022). «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv. [1]
↑ Wei, J., Wang, X., Schuurmans, D., et al. (2022). «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». NeurIPS 2022.
↑ «Self-Consistency Improves Chain of Thought Reasoning in Language Models - Summary». Portkey. [2]
↑ Chen, X., et al. (2023). «Universal Self-Consistency with Large Language Models». arXiv. [3]
↑ «Universal Self-Consistency with Large Language Models». Google DeepMind Publications. [4]

[wang2022-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 Wang, X., Wei, J., Schuurmans, D., et al. (2022). «Self-Consistency Improves Chain of Thought Reasoning in Language Models». arXiv. [1]

[wei2022-2] Wei, J., Wang, X., Schuurmans, D., et al. (2022). «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models». NeurIPS 2022.

[portkey_summary-3] «Self-Consistency Improves Chain of Thought Reasoning in Language Models - Summary». Portkey. [2]

[chen2023_usc-4] Chen, X., et al. (2023). «Universal Self-Consistency with Large Language Models». arXiv. [3]

[deepmind_usc-5] «Universal Self-Consistency with Large Language Models». Google DeepMind Publications. [4]

[1]

[2]

[3]

[4]

[5]

Self-consistency prompting — 自己整合性プロンプティング

Contents

背景と前提

動作の仕組み

有効性と結果

利点と限界

利点

限界

手法の発展: Universal Self-Consistency

外部リンク

参考文献

脚注

Navigation menu

Self-consistency prompting — 自己整合性プロンプティング

背景と前提

動作の仕組み

有効性と結果

利点と限界

利点

限界

手法の発展: Universal Self-Consistency

外部リンク

参考文献

脚注

Navigation menu

Search