LSTM
更新日:2025年12月18日
1. 概要
LSTM(Long Short-Term Memory)は、セル状態とゲート機構を持つリカレントニューラルネットワークのアーキテクチャである。勾配消失問題を解決し、長期依存関係の学習を可能にした。Transformer登場まで、系列モデリングの標準手法として広く使用された。
2. 研究の背景
従来のRNN(Recurrent Neural Network)は、長期の依存関係を学習することが困難だった。誤差が逆伝播する際に、勾配が指数的に減少(勾配消失)または増大(勾配爆発)する問題があった。時系列データや自然言語など、長期的なパターンを持つデータの処理に限界があった。
3. 提案手法
LSTMはセル状態(cell state)と3つのゲートを持つメモリセル構造を導入した。忘却ゲート(forget gate)は古い情報を忘れるかを制御する。入力ゲート(input gate)は新しい情報を記憶するかを制御する。出力ゲート(output gate)はセル状態から出力する情報を制御する。ゲートはシグモイド関数で0〜1の値を出力し、情報の流れを調整する。
4. 実験結果
従来のRNNでは学習できない長期依存タスク(1000ステップ以上の時間差がある依存関係)で、優れた性能を示した。人工的なベンチマークタスクで、従来手法を大幅に上回った。
5. 意義と影響
LSTMはTransformer登場まで、系列モデリングの標準手法として広く使用された。音声認識(Google音声検索)、機械翻訳(Google翻訳初期版)、時系列予測、手書き認識など、多くの応用で成功を収めた。GRU(Gated Recurrent Unit)など、より単純な変種も生まれた。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Attention Is All You Need | LSTMを置き換えたTransformer |
| Word2Vec | 単語埋め込みとの組み合わせ |
参考文献
[1] Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
[1] Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。
関連書籍
リンク