LSTM

更新日:2025年12月18日

正式タイトル:Long Short-Term Memory

著者:Hochreiter, Schmidhuber

発表年:1997年

掲載:Neural Computation

所属:Technische Universität München

原著論文:Neural Computation (1997)

1. 概要

LSTM(Long Short-Term Memory)は、セル状態とゲート機構を持つリカレントニューラルネットワークのアーキテクチャである。勾配消失問題を解決し、長期依存関係の学習を可能にした。Transformer登場まで、系列モデリングの標準手法として広く使用された。

2. 研究の背景

従来のRNN(Recurrent Neural Network)は、長期の依存関係を学習することが困難だった。誤差が逆伝播する際に、勾配が指数的に減少(勾配消失)または増大(勾配爆発)する問題があった。時系列データや自然言語など、長期的なパターンを持つデータの処理に限界があった。

3. 提案手法

LSTMはセル状態(cell state)と3つのゲートを持つメモリセル構造を導入した。忘却ゲート(forget gate)は古い情報を忘れるかを制御する。入力ゲート(input gate)は新しい情報を記憶するかを制御する。出力ゲート(output gate)はセル状態から出力する情報を制御する。ゲートはシグモイド関数で0〜1の値を出力し、情報の流れを調整する。

4. 実験結果

従来のRNNでは学習できない長期依存タスク(1000ステップ以上の時間差がある依存関係)で、優れた性能を示した。人工的なベンチマークタスクで、従来手法を大幅に上回った。

5. 意義と影響

LSTMはTransformer登場まで、系列モデリングの標準手法として広く使用された。音声認識(Google音声検索)、機械翻訳(Google翻訳初期版)、時系列予測、手書き認識など、多くの応用で成功を収めた。GRU(Gated Recurrent Unit)など、より単純な変種も生まれた。

6. 関連論文

論文関係
Attention Is All You NeedLSTMを置き換えたTransformer
Word2Vec単語埋め込みとの組み合わせ
参考文献
[1] Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍