Attention Is All You Need

更新日:2025年12月18日

著者:Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin

発表年:2017年

掲載:NeurIPS 2017

所属:Google Brain, Google Research

原著論文:arXiv:1706.03762

1. 概要

本論文は、自然言語処理における系列変換(sequence transduction)タスクのための新しいネットワークアーキテクチャ「Transformer」を提案した。従来のRNN(再帰型ニューラルネットワーク)やCNN(畳み込みニューラルネットワーク)に依存せず、自己注意機構(self-attention)のみで構成されるモデルである。

Transformerは、機械翻訳タスクにおいて当時の最先端モデルを大幅に上回る性能を達成しただけでなく、学習時間も大幅に短縮した。この論文は、BERT、GPT、LLaMAなど現代の大規模言語モデルすべての基盤となった歴史的論文である。

2. 研究の背景

2017年当時、系列変換タスクの主流はLSTMやGRUを用いたEncoder-Decoderモデルであった。これらのモデルには以下の問題があった。

逐次的な計算により並列化が困難であり、学習に長い時間を要した。長い系列において、離れた位置の依存関係を学習することが難しかった。また、モデルの計算量が系列長に対して線形に増加するため、長文処理に限界があった。

注意機構(Attention)自体は2014年のBahdanauらの研究で提案されていたが、RNNと組み合わせて使用されており、RNNの制約から解放されていなかった。

3. 提案手法

3.1 自己注意機構(Self-Attention)

Transformerの中核をなすのが自己注意機構である。入力系列の各位置から他のすべての位置への関連度を計算し、重み付き和を取ることで表現を生成する。Query、Key、Valueの3つのベクトルを用いた「Scaled Dot-Product Attention」として定式化された。

3.2 Multi-Head Attention

単一の注意機構ではなく、複数の注意機構を並列に実行し、それらの出力を連結する「Multi-Head Attention」を導入した。これにより、異なる表現部分空間からの情報を同時に参照できるようになった。

3.3 位置エンコーディング

自己注意機構は位置情報を持たないため、入力に位置情報を付加する必要がある。本論文では、正弦・余弦関数を用いた位置エンコーディングを提案した。これにより、学習済みモデルが訓練時より長い系列にも対応できる可能性が示された。

3.4 Encoder-Decoderアーキテクチャ

Transformerは6層のエンコーダと6層のデコーダで構成される。各層はMulti-Head Attention、Feed-Forward Network、Layer Normalization、Residual Connectionで構成される。

4. 実験結果

WMT 2014英独翻訳タスクにおいて、BLEUスコア28.4を達成し、当時の最先端モデルを2.0ポイント以上上回った。英仏翻訳タスクでは41.0 BLEUを達成し、単一モデルとして過去最高の性能を記録した。

学習時間についても、8台のP100 GPUで3.5日という短期間で学習を完了した。これは従来モデルと比較して大幅な効率化である。

5. 意義と影響

本論文の影響は計り知れない。以下に主要な影響を挙げる。

BERTへの影響(2018年):TransformerのEncoder部分を利用し、双方向の文脈理解を実現。自然言語理解タスクのベンチマークを塗り替えた。

GPTシリーズへの影響:TransformerのDecoder部分を利用し、大規模言語モデルの基盤となった。GPT-3、GPT-4へと発展し、ChatGPTの登場につながった。

Vision Transformer(2020年):画像認識にもTransformerを適用し、CNNに依存しない画像処理を実現した。

その他の応用:音声認識、タンパク質構造予測(AlphaFold)、マルチモーダルAI(CLIP、DALL-E)など、あらゆる分野でTransformerが活用されている。

6. 関連論文

Table 1. 関連論文一覧

論文 関係
BERT Encoderを利用した双方向言語モデル
GPT-2 Decoderを利用した生成モデル
Vision Transformer 画像認識への応用
Scaling Laws Transformerのスケーリング則
参考文献
[1] Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017.
[2] arXiv:1706.03762 - https://arxiv.org/abs/1706.03762

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍