hatohato.jp > AI最新動向 > 主要論文 > LSTM

LSTM

更新日：2025年12月18日

正式タイトル：Long Short-Term Memory

著者：Hochreiter, Schmidhuber

発表年：1997年

掲載：Neural Computation

所属：Technische Universität München

原著論文：Neural Computation (1997)

1. 概要

LSTM（Long Short-Term Memory）は、セル状態とゲート機構を持つリカレントニューラルネットワークのアーキテクチャである。勾配消失問題を解決し、長期依存関係の学習を可能にした。Transformer登場まで、系列モデリングの標準手法として広く使用された。

2. 研究の背景

従来のRNN（Recurrent Neural Network）は、長期の依存関係を学習することが困難だった。誤差が逆伝播する際に、勾配が指数的に減少（勾配消失）または増大（勾配爆発）する問題があった。時系列データや自然言語など、長期的なパターンを持つデータの処理に限界があった。

3. 提案手法

LSTMはセル状態（cell state）と3つのゲートを持つメモリセル構造を導入した。忘却ゲート（forget gate）は古い情報を忘れるかを制御する。入力ゲート（input gate）は新しい情報を記憶するかを制御する。出力ゲート（output gate）はセル状態から出力する情報を制御する。ゲートはシグモイド関数で0〜1の値を出力し、情報の流れを調整する。

4. 実験結果

従来のRNNでは学習できない長期依存タスク（1000ステップ以上の時間差がある依存関係）で、優れた性能を示した。人工的なベンチマークタスクで、従来手法を大幅に上回った。

5. 意義と影響

LSTMはTransformer登場まで、系列モデリングの標準手法として広く使用された。音声認識（Google音声検索）、機械翻訳（Google翻訳初期版）、時系列予測、手書き認識など、多くの応用で成功を収めた。GRU（Gated Recurrent Unit）など、より単純な変種も生まれた。

6. 関連論文

論文	関係
Attention Is All You Need	LSTMを置き換えたTransformer
Word2Vec	単語埋め込みとの組み合わせ

参考文献
[1] Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。