Chain-of-Thought

更新日:2025年12月18日

正式タイトル:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

著者:Wei, Wang, Schuurmans, Bosma, et al.

発表年:2022年

掲載:NeurIPS 2022

所属:Google Research

原著論文:arXiv:2201.11903

1. 概要

Chain-of-Thought(CoT)プロンプティングは、few-shotの例示に推論の中間ステップを含めることで、大規模言語モデルの推論能力を大幅に向上させる手法である。プロンプトエンジニアリングの重要技術となり、LLMの推論能力向上研究に大きな影響を与えた。

2. 研究の背景

大規模言語モデルは多くのタスクで高い性能を示すが、算術推論や論理推論など、多段階の推論を要するタスクでは性能が低かった。標準的なfew-shotプロンプトでは、最終回答のみを例示するため、推論過程を明示的に示すことができなかった。

3. 提案手法

CoTプロンプティングでは、few-shotの例示において、最終回答だけでなく、推論の中間ステップ(chain of thought)も含める。例えば「ロジャーは5個のテニスボールを持っています。彼は2缶のテニスボールを買いました。各缶には3個のボールが入っています。彼は今何個のボールを持っていますか?」という問題に対し、「ロジャーは5個のボールから始めました。2缶×3個=6個のボールを買いました。5+6=11。答えは11個です。」という形式で例示する。

4. 実験結果

GSM8K(算術推論)でPaLM 540Bの性能を17.9%から58.1%に向上させた。MultiArith、SVAMP、AQuAなど複数の算術推論ベンチマークで大幅な改善を達成した。また、常識推論(CommonsenseQA)や記号推論タスクでも効果が確認された。特に、モデルサイズが100B以上の大規模モデルでCoTの効果が顕著だった。

5. 意義と影響

CoTはプロンプトエンジニアリングの重要技術となった。Self-Consistency、Tree of Thoughts、ReAct、Least-to-Mostなど多くの派生手法を生み出した。「Let's think step by step」というzero-shot CoTの発見にもつながった。LLMの推論能力を引き出すための標準的なアプローチとして広く採用されている。

6. 関連論文

論文関係
GPT-3Few-shot学習の基盤
参考文献
[1] Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
[2] arXiv:2201.11903

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍