DQN

更新日:2025年12月18日

正式タイトル:Playing Atari with Deep Reinforcement Learning

著者:Mnih, Kavukcuoglu, Silver, Graves, Antonoglou, Wierstra, Riedmiller

発表年:2013年

掲載:NeurIPS 2013 Workshop / Nature 2015

所属:DeepMind

原著論文:arXiv:1312.5602

1. 概要

DQN(Deep Q-Network)は、CNNを用いてQ関数を近似し、生の画像入力からAtariゲームをプレイする深層強化学習手法である。Experience ReplayとTarget Networkにより学習を安定化させ、深層強化学習の実用性を示した先駆的研究である。

2. 研究の背景

強化学習は理論的に確立されていたが、高次元の状態空間(生の画像など)を扱うことが困難だった。Q学習とニューラルネットワークを組み合わせた場合、学習が不安定になる問題があった。これは、連続する状態間の相関と、学習中のQ値の変動に起因していた。

3. 提案手法

DQNは2つの革新的技術を導入した。Experience Replayでは、過去の経験(状態、行動、報酬、次状態)をメモリに蓄積し、ランダムにサンプリングして学習する。これにより状態間の相関を軽減する。Target Networkでは、Q値の目標計算に使用するネットワークを一定期間固定し、学習を安定化させる。入力は直近4フレームの84×84グレースケール画像である。

4. 実験結果

7つのAtariゲーム(Breakout、Pong、Space Invaders等)のうち6つで、当時の最先端手法を上回る性能を達成した。一部のゲーム(Breakout、Pong)では人間のプレイヤーを超えた。Nature 2015版では49ゲーム中29ゲームで人間を上回った。

5. 意義と影響

DQNは深層強化学習の実用性を示した先駆的研究である。DeepMindがGoogleに5億ドルで買収されるきっかけとなった。AlphaGo、ロボティクス、自動運転など、後続の強化学習研究の基盤となった。Double DQN、Dueling DQN、Rainbow等、多くの派生手法を生んだ。

6. 関連論文

論文関係
AlphaGo深層強化学習の発展
PPO方策勾配法への発展
AlexNetCNNの基盤
参考文献
[1] Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. arXiv:1312.5602.
[2] Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍