Least-to-most Prompting — Least-to-Mostプロンプティング
Least-to-Most Prompting (LtM) とは、大規模言語モデル (LLM) のためのプロンプト開発手法の一つであり、複雑な問題をより単純なサブタスクに分解し、それらを順次解決することで問題を解くことを可能にする[1]。このアプローチは2022年にデニー・チョウ (Denny Zhou) が率いるGoogle Brainの研究者グループによって提案され、ICLR 2023カンファレンスで発表された[2]。この手法の主な目的は、プロンプトでの学習時にモデルに示された例よりも複雑なタスクをうまく処理できないChain-of-Thoughtプロンプティングの限界を克服することである[2]。Least-to-Most Promptingは、解釈可能性を維持し、ニューラルネットワークの追加学習を必要とせずに、モデルがより複雑なタスクに汎化することを可能にする[2]。この手法の名前は教育心理学から借用されたもので、そこでは「least to most prompting」とは、学生が新しいスキルを習得するために、徐々に援助のレベルを上げていく一連のプロンプトを与えることを意味する[3]。
手法の解説
Least-to-Most Promptingの手法は2つの段階で実行され[2]、各段階は(モデルの追加のファインチューニングなしで)慎重に作成されたプロンプトを通じて言語モデル自体に指示される:
- タスクの分解。第一段階では、モデルは複雑なタスクをより単純なサブタスクのシーケンスに分割する方法を示す指示と例を受け取る。その後、具体的な複雑な問題が提示され、モデルは単純化された中間的な質問のリストを出力しなければならない[2]。例えば、複雑なタスクに対して、モデルは元の問題の一部に対処する уточняющий サブ質問を自律的に定式化することができる。
- サブタスクの順次解決。第二段階では、モデルは得られたサブタスクを最も単純なものから最も複雑なものまで順番に解決する。このために、各サブタスクにはコンテキストが先行する:類似のサブ問題の解決例、そして(もしあれば)既知の答えと共に解決済みの先行サブタスク[4]。最初のサブタスクを解決した後、モデルはその答えをプロンプトのテキストに追加し、前の解決策をコンテキストとして使用して次のサブタスクを受け取る[4]。これは、元の質問に直接答える最終的で最も複雑なサブタスクが解決されるまで続く。
例:元の文章問題はLeast-to-Mostメソッドを用いて2つの段階に分けられる。まず、モデルは中間的な質問(「How long does each trip take?」 - 「1回の移動にかかる時間は?」)を定式化して解決し、「each trip takes 5 minutes」(各移動には5分かかります)という答えを得る。この答えは、次のサブタスクである元の質問(「How many times can she slide before it closes?」 - 「アトラクションが閉まるまでに彼女は何回滑れますか?」)と共に新しいプロンプトに含まれる。前の結果を使用して、モデルは最終的な答え(この例では3回)を計算する。
原理的に、Least-to-Most Promptingは、単一の回答内で連続した「思考の連鎖」を生成する代わりに、推論プロセスを知識を蓄積しながら個別のクエリに分割するという点で、標準的なChain-of-Thoughtアプローチとは異なる[3]。このような段階的で再帰的なアプローチにより、モデルはタスクのより複雑な側面に徐々に移行することができ、easy-to-hard generalization(モデルが学習例よりも難しいタスクに直面する問題)の問題を効果的に解決する[2][3]。LtMメソッドの両方の段階はfew-shot prompting(いくつかの例を示すこと)によって実現され、モデルの追加のトレーニングや新しいデータでのファインチューニングは不要であることに注意が必要である[2]。さらに、このメソッドはLLMの推論を改善する他のテクニックと互換性があり、例えば、Chain-of-Thoughtやself-consistency(複数の解決策を順次サンプリング)と組み合わせて回答を生成することができるが、これは必須ではない[1]。
実験結果と応用
Least-to-Most Promptingを提案した研究では、この手法が複雑な多段階推論を必要とする多くのタスクにおいて、標準的なプロンプティング手法(Chain-of-Thoughtを含む)を上回ることが示された[1]。この手法は、3つの主要なタスクカテゴリでその利点を成功裏に実証した:
- 記号的およびアルゴリズム的タスク。例えば、単語の最後の文字を連結するタスク(リスト内の各単語の最後の文字を順に取り、それらから新しい単語を作成する)において、LtMメソッドはモデルがより長い単語シーケンスに汎化する能力を大幅に向上させた。特別なトレーニングなしで、GPT-3モデル(code-davinci-002)はChain-of-Thoughtプロンプトを使用した場合、単語リストの長さが12の場合、このようなタスクを正しく解決できたのはわずか32%のケースであったが、Least-to-Most Promptingを使用すると精度は約74%に達した[1]。短いリスト(例で見られた長さ)では両方の戦略が良好に機能したが、シーケンス長が長くなるにつれてChain-of-Thoughtの品質は急激に低下したのに対し、Least-to-Mostはより緩やかな低下を保証し、高い精度を維持した[1]。これは、LtMメソッドが解決ロジックをより複雑な(長い)入力データに汎化する能力を示している。
- 構成的汎化' (compositional generalization)。このタスクカテゴリには、例えば、テキストの指示を一連のアクションに翻訳することが含まれる(SCANベンチマークのように、「jump twice and run」のようなコマンドを実行し、より長い組み合わせに汎化する必要がある)[4]。LtMメソッドにより、LLMはこのようなタスクの最も複雑なバリアントさえも成功裏に解決することができた。特に、GPT-3モデルはLtMプロンプトを使用し、プロンプトにわずか14の例を使用するだけで、SCANデータセットのすべてのデータ分割バリアント(テストシーケンスがトレーニングシーケンスより長い最も困難なlength splitを含む)で99%の精度を達成した[2]。比較として、標準的なChain-of-Thoughtアプローチでは、同様の条件下で約16%の精度しか得られなかった[2]。さらに、これはモデルをトレーニングデータで学習させることなく達成されたものであり、以前のSCANの最良の解決策は、15,000以上の例からなるトレーニングセット全体の使用を必要とする特別なニューロシンボリックアーキテクチャやデータ拡張手法に依存していた[2][2]。このように、Least-to-Most Promptingは、ファインチューニングなしのモデルとしては前例のない'構成的汎化能力を示した。
- 数学の文章問題。この手法は、テキスト中の算術問題、例えばGSM8Kデータセット(加算/減算と論理に関する複雑な文章問題)[2]や、DROPデータセットからの一連の質問(テキスト中の数値情報を抽出・計算する能力をテストする)[2]でテストされた。ここでも、Least-to-Most PromptingはChain-of-Thoughtと比較して精度の向上を示した。GSM8Kでは、code-davinci-002モデルを使用した場合、回答の精度は〜60.9%から〜62.4%に増加した[2]。DROPのサブタスクでは、その差はさらに顕著であった。例えば、「フットボール」の事実に関する一部の質問では、精度は〜59.6%(Chain-of-Thought)からLtMを適用すると〜73.4%に上昇した[2]。数学タスクでの品質向上はSCANほど劇的ではなかったが、著者らは重要な点を指摘している:モデルが問題の正しい分解を受け取れば、ほとんどすべてのGSM8Kタスクを正しく解決できる[2]。これは、成功への鍵がうまく定式化された中間的な質問にあることを示唆しており、LtMアプローチはまさにそのような質問を自動的に生成し、それらを順次解決することを目指している。
要約すると、実験はLeast-to-Most Promptingが、多段階の推論を必要とする多くの種類のタスクにおいて、単純なfew-shotプロンプティングとChain-of-Thought手法の両方を大幅に上回ることを確認している[1]。この手法により、LLMは当初例を通じて知っていた問題よりも複雑な問題を解決することができ、in-context learning(プロンプトによるその場での学習)の境界を広げる。
限界と今後の方向性
成功にもかかわらず、Least-to-Most Promptingメソッドにはいくつかの限界がある。まず第一に、さまざまな種類のタスクには異なる分解アプローチが必要である。数学の問題を効果的に分割するプロンプトのテンプレートは、論理的または常識的な問題には全く適さない可能性がある[2]。例えば、数学の文章問題をステップに分割する方法をモデルに教えたプロンプトは、「アリストテレスはノートパソコンを使ったか?」のような常識的な質問には役に立たなかった。このようなタスクには全く異なる分割戦略が必要である[2]。そのため、新しいドメイン領域や問題の種類ごとに、タスクをサブタスクに分割する例を新たに選び、解決策の構造を示す対応するプロンプトを作成する必要がある[3]。言い換えれば、タスクを正しく分解する方法の知識は、LLM自体によって普遍的に汎化されるのではなく、特定のタスククラスに対して例を通じて提供されなければならない。
さらに、LtMの有効性は、タスクが独立したサブゴールにうまく分割できるかに大きく依存する。モデルが中間ステップを正しく定式化できなかったり、必要なサブタスクがいくつか省略されたりすると、最終的な解決策も誤ったものになる。しかし、開発者自身は、多くの場合、人間が手動で正しい分解を指示すれば失敗を成功に変えることができると指摘している。その場合、モデルは各部分を容易に解決し、答えをうまく組み合わせることができる[2]。これは、アプローチのさらなる発展の可能性を強調している:サブタスクの自動生成の質の向上、そしておそらくはモデルの対話的な学習である。結論として、LtMの著者らは、プロンプティング手法の未来は、モデルが即座のフィードバックを受け取り、中間ステップを修正できるような、本格的な双方向対話の方向にあるかもしれないと示唆している[2]。Least-to-Most Promptingメソッドは、タスクの分解と段階的な解決を通じてモデルと順次対話することが、新しいデータで学習させることなくその推論能力を大幅に拡張することを示す、この方向への一歩と見なすことができる[1]。
関連リンク
- 原論文「Least-to-Most Prompting Enables Complex Reasoning in Large Language Models」 (arXiv)
- 原論文のHTML版
- Least-to-Most Promptingとは? — AI Safety Infoの記事
- Mediumでの手法のレビュー
- プロンプトエンジニアリング手法の包括的なレビュー (arXiv)
参考文献
- Zhou, D. et al. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625.
- Zhou, D. et al. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. ICLR 2023. OpenReview.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903.
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
- Kojima, T. et al. (2022). Large Language Models Are Zero-Shot Reasoners. arXiv:2205.11916.
- Nye, M. et al. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv:2112.00114.
- Lake, B. M.; Baroni, M. (2018). Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks. arXiv:1711.00350.
- Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
- Dua, D. et al. (2019). DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs. arXiv:1903.00161.
- Zhang, Z. et al. (2022). Automatic Chain of Thought Prompting in Large Language Models. arXiv:2210.03493.
注釈
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». ar5iv.org. [1]
- ↑ 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 Zhou, Denny et al. «Least-to-Most Prompting Enables Complex Reasoning in Large Language Models». arXiv. [2]
- ↑ 3.0 3.1 3.2 3.3 «What is least-to-most prompting?». AI Safety Info. [3]
- ↑ 4.0 4.1 4.2 OXEN AI. «Arxiv Dives Toolformer: Language models can teach themselves to use tools». Medium. [4]