Adam
更新日:2025年12月18日
1. 概要
Adam(Adaptive Moment Estimation)は、勾配の1次モーメント(平均)と2次モーメント(分散)の指数移動平均を用いて、各パラメータの学習率を適応的に調整する最適化アルゴリズムである。深層学習で最も広く使用される最適化アルゴリズムとなった。
2. 研究の背景
SGD(確率的勾配降下法)は学習率の設定が難しく、各パラメータに同じ学習率を適用することの非効率性があった。AdaGrad、RMSPropなどの適応的学習率法が提案されていたが、それぞれに課題があった。AdaGradは学習率が単調減少し、RMSPropは理論的裏付けが弱かった。
3. 提案手法
Adamは勾配gの1次モーメントm(平均)と2次モーメントv(分散)の指数移動平均を計算する: m_t = β₁m_{t-1} + (1-β₁)g_t、v_t = β₂v_{t-1} + (1-β₂)g_t²。バイアス補正を適用: m̂_t = m_t/(1-β₁^t)、v̂_t = v_t/(1-β₂^t)。パラメータ更新: θ_t = θ_{t-1} - α·m̂_t/(√v̂_t + ε)。推奨値はα=0.001、β₁=0.9、β₂=0.999、ε=10⁻⁸。
4. 実験結果
多様なタスク(画像認識、自然言語処理、強化学習)で、他の最適化手法と比較して優れた収束性能を示した。デフォルトのハイパーパラメータでも良好な性能を達成し、チューニングの手間を軽減した。
5. 意義と影響
Adamは深層学習で最も広く使用される最適化アルゴリズムとなった。AdamW(重み減衰の修正版)、RAdam(分散補正)、Adafactor(メモリ効率化)など多くの派生手法の基盤となっている。PyTorch、TensorFlowなどのフレームワークでデフォルトの最適化手法として広く採用されている。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Backpropagation | 勾配計算の基盤 |
| VAE | 同著者(Kingma)の生成モデル |
[1] Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. ICLR 2015.
[2] arXiv:1412.6980
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。