Vision Transformer (ViT)

更新日:2025年12月18日

正式タイトル:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

著者:Dosovitskiy, Beyer, Kolesnikov, Weissenborn, et al.

発表年:2020年

掲載:ICLR 2021

所属:Google Research

原著論文:arXiv:2010.11929

1. 概要

Vision Transformer(ViT)は、画像を16×16ピクセルのパッチに分割し、各パッチをトークンとして扱うことで、Transformerを画像認識に適用した論文である。大規模データセットでの事前学習により、CNNを上回る性能を達成し、コンピュータビジョンにおけるTransformerの有効性を実証した。

2. 研究の背景

Transformerは自然言語処理で大きな成功を収めていたが、画像認識ではCNNが依然として支配的だった。Transformerを画像に適用する試みは存在したが、CNN的な帰納バイアス(局所性、並進不変性)なしでは性能が限定的だった。

3. 提案手法

画像を固定サイズ(16×16ピクセル)のパッチに分割し、各パッチを線形射影してトークン埋め込みを生成する。位置エンコーディングを加え、標準的なTransformer Encoderに入力する。分類用の[CLS]トークンを先頭に追加し、最終層の[CLS]トークン出力を分類ヘッドに入力する。CNN的な帰納バイアスを持たない「純粋な」Transformerアーキテクチャである。

4. 実験結果

JFT-300M(3億枚)やImageNet-21k(1400万枚)などの大規模データセットで事前学習したViTは、ImageNetでCNNを上回る性能を達成した。ViT-H/14はImageNetで88.55%のTop-1精度を達成。計算効率も優れており、同等の精度をより少ない計算量で達成できた。ただし、中規模のデータセットのみでは、CNNに劣る性能となった。

5. 意義と影響

ViTはコンピュータビジョンにおけるTransformerの有効性を実証した。Swin Transformer、DeiT、BEiT、MAE、DINO等、多くの派生研究を生んだ。マルチモーダルAI(CLIP、DALL-E)の発展にも貢献し、NLPとコンピュータビジョンの技術的統合を促進した。

6. 関連論文

論文関係
Attention Is All You NeedTransformerの基盤
CLIPマルチモーダルへの発展
ResNetCNNとの比較対象
参考文献
[1] Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
[2] arXiv:2010.11929

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍