InstructGPT
更新日:2025年12月18日
1. 概要
InstructGPTは、RLHF(Reinforcement Learning from Human Feedback)を導入し、言語モデルを人間の意図に沿った出力を生成するように学習させた論文である。ChatGPTの基盤技術となり、AIアライメント研究の重要なマイルストーンとなった。
2. 研究の背景
GPT-3は高い言語能力を持つが、ユーザーの意図に沿った出力を生成することが困難だった。有害なコンテンツの生成、指示の無視、事実と異なる内容の生成(ハルシネーション)などの問題があった。言語モデルの「有用性」「正直さ」「無害さ」を向上させる手法が求められていた。
3. 提案手法
RLHFは3つのステップで構成される。第1に、人間のラベラーが望ましい出力を作成し、それを用いてSupervised Fine-Tuning(SFT)を実施する。第2に、複数の出力に対する人間のランキングを学習した報酬モデル(Reward Model)を訓練する。第3に、報酬モデルを用いてPPOアルゴリズムで強化学習を行い、モデルを最適化する。
4. 実験結果
パラメータ数が100分の1(1.3B)のInstructGPTモデルが、GPT-3(175B)より人間に好まれる出力を生成した。有害性の低減と指示追従能力の向上を達成した。ラベラー評価では、InstructGPTの出力が85%の確率でGPT-3より好まれた。TruthfulQAベンチマークでも大幅な改善を示した。
5. 意義と影響
InstructGPTはChatGPTの基盤技術となった歴史的論文である。AIアライメント研究の重要なマイルストーンであり、RLHF手法の産業応用を確立した。Anthropic、Google、Metaなど他社もRLHFを採用し、業界標準の技術となった。人間のフィードバックに基づくモデル改善という方向性を示し、AI安全性研究に大きな影響を与えた。
6. 関連論文
| 論文 | 関係 |
|---|---|
| GPT-3 | ベースモデル |
| PPO | 強化学習アルゴリズム |
| Constitutional AI | AI生成フィードバックへの発展 |
[1] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.
[2] arXiv:2203.02155
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。