Vision Transformer (ViT)
更新日:2025年12月18日
1. 概要
Vision Transformer(ViT)は、画像を16×16ピクセルのパッチに分割し、各パッチをトークンとして扱うことで、Transformerを画像認識に適用した論文である。大規模データセットでの事前学習により、CNNを上回る性能を達成し、コンピュータビジョンにおけるTransformerの有効性を実証した。
2. 研究の背景
Transformerは自然言語処理で大きな成功を収めていたが、画像認識ではCNNが依然として支配的だった。Transformerを画像に適用する試みは存在したが、CNN的な帰納バイアス(局所性、並進不変性)なしでは性能が限定的だった。
3. 提案手法
画像を固定サイズ(16×16ピクセル)のパッチに分割し、各パッチを線形射影してトークン埋め込みを生成する。位置エンコーディングを加え、標準的なTransformer Encoderに入力する。分類用の[CLS]トークンを先頭に追加し、最終層の[CLS]トークン出力を分類ヘッドに入力する。CNN的な帰納バイアスを持たない「純粋な」Transformerアーキテクチャである。
4. 実験結果
JFT-300M(3億枚)やImageNet-21k(1400万枚)などの大規模データセットで事前学習したViTは、ImageNetでCNNを上回る性能を達成した。ViT-H/14はImageNetで88.55%のTop-1精度を達成。計算効率も優れており、同等の精度をより少ない計算量で達成できた。ただし、中規模のデータセットのみでは、CNNに劣る性能となった。
5. 意義と影響
ViTはコンピュータビジョンにおけるTransformerの有効性を実証した。Swin Transformer、DeiT、BEiT、MAE、DINO等、多くの派生研究を生んだ。マルチモーダルAI(CLIP、DALL-E)の発展にも貢献し、NLPとコンピュータビジョンの技術的統合を促進した。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Attention Is All You Need | Transformerの基盤 |
| CLIP | マルチモーダルへの発展 |
| ResNet | CNNとの比較対象 |
[1] Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
[2] arXiv:2010.11929
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。