DQN
更新日:2025年12月18日
1. 概要
DQN(Deep Q-Network)は、CNNを用いてQ関数を近似し、生の画像入力からAtariゲームをプレイする深層強化学習手法である。Experience ReplayとTarget Networkにより学習を安定化させ、深層強化学習の実用性を示した先駆的研究である。
2. 研究の背景
強化学習は理論的に確立されていたが、高次元の状態空間(生の画像など)を扱うことが困難だった。Q学習とニューラルネットワークを組み合わせた場合、学習が不安定になる問題があった。これは、連続する状態間の相関と、学習中のQ値の変動に起因していた。
3. 提案手法
DQNは2つの革新的技術を導入した。Experience Replayでは、過去の経験(状態、行動、報酬、次状態)をメモリに蓄積し、ランダムにサンプリングして学習する。これにより状態間の相関を軽減する。Target Networkでは、Q値の目標計算に使用するネットワークを一定期間固定し、学習を安定化させる。入力は直近4フレームの84×84グレースケール画像である。
4. 実験結果
7つのAtariゲーム(Breakout、Pong、Space Invaders等)のうち6つで、当時の最先端手法を上回る性能を達成した。一部のゲーム(Breakout、Pong)では人間のプレイヤーを超えた。Nature 2015版では49ゲーム中29ゲームで人間を上回った。
5. 意義と影響
DQNは深層強化学習の実用性を示した先駆的研究である。DeepMindがGoogleに5億ドルで買収されるきっかけとなった。AlphaGo、ロボティクス、自動運転など、後続の強化学習研究の基盤となった。Double DQN、Dueling DQN、Rainbow等、多くの派生手法を生んだ。
6. 関連論文
| 論文 | 関係 |
|---|---|
| AlphaGo | 深層強化学習の発展 |
| PPO | 方策勾配法への発展 |
| AlexNet | CNNの基盤 |
参考文献
[1] Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. arXiv:1312.5602.
[2] Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. arXiv:1312.5602.
[2] Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク