hatohato.jp > AI最新動向 > 主要論文 > DQN

DQN

更新日：2025年12月18日

正式タイトル：Playing Atari with Deep Reinforcement Learning

著者：Mnih, Kavukcuoglu, Silver, Graves, Antonoglou, Wierstra, Riedmiller

発表年：2013年

掲載：NeurIPS 2013 Workshop / Nature 2015

所属：DeepMind

原著論文：arXiv:1312.5602

1. 概要

DQN（Deep Q-Network）は、CNNを用いてQ関数を近似し、生の画像入力からAtariゲームをプレイする深層強化学習手法である。Experience ReplayとTarget Networkにより学習を安定化させ、深層強化学習の実用性を示した先駆的研究である。

2. 研究の背景

強化学習は理論的に確立されていたが、高次元の状態空間（生の画像など）を扱うことが困難だった。Q学習とニューラルネットワークを組み合わせた場合、学習が不安定になる問題があった。これは、連続する状態間の相関と、学習中のQ値の変動に起因していた。

3. 提案手法

DQNは2つの革新的技術を導入した。Experience Replayでは、過去の経験（状態、行動、報酬、次状態）をメモリに蓄積し、ランダムにサンプリングして学習する。これにより状態間の相関を軽減する。Target Networkでは、Q値の目標計算に使用するネットワークを一定期間固定し、学習を安定化させる。入力は直近4フレームの84×84グレースケール画像である。

4. 実験結果

7つのAtariゲーム（Breakout、Pong、Space Invaders等）のうち6つで、当時の最先端手法を上回る性能を達成した。一部のゲーム（Breakout、Pong）では人間のプレイヤーを超えた。Nature 2015版では49ゲーム中29ゲームで人間を上回った。

5. 意義と影響

DQNは深層強化学習の実用性を示した先駆的研究である。DeepMindがGoogleに5億ドルで買収されるきっかけとなった。AlphaGo、ロボティクス、自動運転など、後続の強化学習研究の基盤となった。Double DQN、Dueling DQN、Rainbow等、多くの派生手法を生んだ。

6. 関連論文

論文	関係
AlphaGo	深層強化学習の発展
PPO	方策勾配法への発展
AlexNet	CNNの基盤

参考文献
[1] Mnih, V., et al. (2013). Playing Atari with Deep Reinforcement Learning. arXiv:1312.5602.
[2] Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。