Dropout

更新日:2025年12月18日

正式タイトル:Dropout: A Simple Way to Prevent Neural Networks from Overfitting

著者:Srivastava, Hinton, Krizhevsky, Sutskever, Salakhutdinov

発表年:2014年

掲載:JMLR

所属:University of Toronto

原著論文:JMLR (2014)

1. 概要

Dropoutは、学習時に各ユニットを確率pでランダムに無効化(出力を0に)する正則化手法である。ネットワークが特定のユニットに依存することを防ぎ、より頑健な特徴を学習させる。深層学習における最も重要な正則化手法の一つである。

2. 研究の背景

深層ニューラルネットワークは多数のパラメータを持つため、過学習しやすい問題があった。L2正則化、早期終了などの手法は存在したが、より効果的な正則化手法が求められていた。アンサンブル学習は有効だが、計算コストが高かった。

3. 提案手法

学習時に、各ユニットを確率p(通常0.5)でランダムに無効化(出力を0に)する。これにより、ネットワークは特定のユニットに依存せず、より頑健な特徴を学習するようになる。推論時は全ユニットを使用し、出力を(1-p)でスケールする(または学習時にスケール)。概念的には、指数的に多くの部分ネットワークのアンサンブルと解釈できる。

4. 実験結果

画像認識(MNIST、CIFAR-10、ImageNet)、音声認識(TIMIT)、自然言語処理など多くのタスクで、汎化性能の大幅な向上を達成した。特に、過学習しやすい大規模ネットワークで効果が顕著だった。

5. 意義と影響

Dropoutは深層学習における最も重要な正則化手法の一つとなった。AlexNetでも使用され、深層学習ブームに貢献した。DropConnect、Spatial Dropout、DropBlock、DropPathなど多くの派生手法を生んだ。現在もほぼすべての深層学習モデルで使用されている。

6. 関連論文

論文関係
AlexNetDropoutを採用した画期的モデル
Batch Normalization別の正則化効果を持つ技術
参考文献
[1] Srivastava, N., et al. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. JMLR.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍