PPO

更新日:2025年12月18日

正式タイトル:Proximal Policy Optimization Algorithms

著者:Schulman, Wolski, Dhariwal, Radford, Klimov

発表年:2017年

掲載:arXiv preprint

所属:OpenAI

原著論文:arXiv:1707.06347

1. 概要

PPO(Proximal Policy Optimization)は、方策の更新を制限するクリッピング機構を導入した強化学習アルゴリズムである。実装が単純でありながらTRPOと同等以上の性能を達成し、現在最も広く使用される強化学習アルゴリズムの一つとなった。InstructGPT、ChatGPTのRLHFでも採用されている。

2. 研究の背景

方策勾配法は連続行動空間を扱えるが、学習が不安定になりやすい問題があった。TRPO(Trust Region Policy Optimization)は安定性を改善したが、実装が複雑で計算コストが高かった。TRPOの利点を維持しながら、より単純で効率的なアルゴリズムが求められていた。

3. 提案手法

PPOは方策の更新を制限するクリッピング機構を導入した。新旧方策の比率r(θ) = π_θ(a|s) / π_θold(a|s)を計算し、この比率が[1-ε, 1+ε](通常ε=0.2)の範囲を超えないようにクリップする。目的関数は L^CLIP(θ) = E[min(r(θ)A, clip(r(θ), 1-ε, 1+ε)A)]。これにより、大きな方策更新を防ぎ、学習を安定化させた。

4. 実験結果

MuJoCo連続制御タスク、Atariゲームで最先端の性能を達成した。学習の安定性と実装の容易さを両立した。TRPOと比較して、同等以上の性能をより少ない計算コストで達成できた。

5. 意義と影響

PPOは現在最も広く使用される強化学習アルゴリズムの一つとなった。OpenAI Fiveのプロジェクト(Dota 2)で採用された。特に重要なのは、InstructGPT、ChatGPTのRLHFでPPOが使用されていることである。言語モデルの学習という新しい応用領域で大きな成功を収めた。

6. 関連論文

論文関係
InstructGPTRLHFでの応用
DQN値ベース手法との比較
参考文献
[1] Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍