Adam

更新日:2025年12月18日

正式タイトル:Adam: A Method for Stochastic Optimization

著者:Kingma, Ba

発表年:2014年

掲載:ICLR 2015

所属:University of Amsterdam, University of Toronto

原著論文:arXiv:1412.6980

1. 概要

Adam(Adaptive Moment Estimation)は、勾配の1次モーメント(平均)と2次モーメント(分散)の指数移動平均を用いて、各パラメータの学習率を適応的に調整する最適化アルゴリズムである。深層学習で最も広く使用される最適化アルゴリズムとなった。

2. 研究の背景

SGD(確率的勾配降下法)は学習率の設定が難しく、各パラメータに同じ学習率を適用することの非効率性があった。AdaGrad、RMSPropなどの適応的学習率法が提案されていたが、それぞれに課題があった。AdaGradは学習率が単調減少し、RMSPropは理論的裏付けが弱かった。

3. 提案手法

Adamは勾配gの1次モーメントm(平均)と2次モーメントv(分散)の指数移動平均を計算する: m_t = β₁m_{t-1} + (1-β₁)g_t、v_t = β₂v_{t-1} + (1-β₂)g_t²。バイアス補正を適用: m̂_t = m_t/(1-β₁^t)、v̂_t = v_t/(1-β₂^t)。パラメータ更新: θ_t = θ_{t-1} - α·m̂_t/(√v̂_t + ε)。推奨値はα=0.001、β₁=0.9、β₂=0.999、ε=10⁻⁸。

4. 実験結果

多様なタスク(画像認識、自然言語処理、強化学習)で、他の最適化手法と比較して優れた収束性能を示した。デフォルトのハイパーパラメータでも良好な性能を達成し、チューニングの手間を軽減した。

5. 意義と影響

Adamは深層学習で最も広く使用される最適化アルゴリズムとなった。AdamW(重み減衰の修正版)、RAdam(分散補正)、Adafactor(メモリ効率化)など多くの派生手法の基盤となっている。PyTorch、TensorFlowなどのフレームワークでデフォルトの最適化手法として広く採用されている。

6. 関連論文

論文関係
Backpropagation勾配計算の基盤
VAE同著者(Kingma)の生成モデル
参考文献
[1] Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. ICLR 2015.
[2] arXiv:1412.6980

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍