hatohato.jp > AI最新動向 > 主要論文 > Adam

Adam

更新日：2025年12月18日

正式タイトル：Adam: A Method for Stochastic Optimization

著者：Kingma, Ba

発表年：2014年

掲載：ICLR 2015

所属：University of Amsterdam, University of Toronto

原著論文：arXiv:1412.6980

1. 概要

Adam（Adaptive Moment Estimation）は、勾配の1次モーメント（平均）と2次モーメント（分散）の指数移動平均を用いて、各パラメータの学習率を適応的に調整する最適化アルゴリズムである。深層学習で最も広く使用される最適化アルゴリズムとなった。

2. 研究の背景

SGD（確率的勾配降下法）は学習率の設定が難しく、各パラメータに同じ学習率を適用することの非効率性があった。AdaGrad、RMSPropなどの適応的学習率法が提案されていたが、それぞれに課題があった。AdaGradは学習率が単調減少し、RMSPropは理論的裏付けが弱かった。

3. 提案手法

Adamは勾配gの1次モーメントm（平均）と2次モーメントv（分散）の指数移動平均を計算する: m_t = β₁m_{t-1} + (1-β₁)g_t、v_t = β₂v_{t-1} + (1-β₂)g_t²。バイアス補正を適用: m̂_t = m_t/(1-β₁^t)、v̂_t = v_t/(1-β₂^t)。パラメータ更新: θ_t = θ_{t-1} - α·m̂_t/(√v̂_t + ε)。推奨値はα=0.001、β₁=0.9、β₂=0.999、ε=10⁻⁸。

4. 実験結果

多様なタスク（画像認識、自然言語処理、強化学習）で、他の最適化手法と比較して優れた収束性能を示した。デフォルトのハイパーパラメータでも良好な性能を達成し、チューニングの手間を軽減した。

5. 意義と影響

Adamは深層学習で最も広く使用される最適化アルゴリズムとなった。AdamW（重み減衰の修正版）、RAdam（分散補正）、Adafactor（メモリ効率化）など多くの派生手法の基盤となっている。PyTorch、TensorFlowなどのフレームワークでデフォルトの最適化手法として広く採用されている。

6. 関連論文

論文	関係
Backpropagation	勾配計算の基盤
VAE	同著者（Kingma）の生成モデル

参考文献
[1] Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. ICLR 2015.
[2] arXiv:1412.6980

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。