CLIP
更新日:2025年12月18日
1. 概要
CLIP(Contrastive Language-Image Pre-training)は、4億の画像-テキストペアで対照学習を行い、画像とテキストを同じ埋め込み空間に射影するマルチモーダルモデルである。固定されたラベルセットに依存せず、自然言語で任意のカテゴリを指定してゼロショット画像認識を実現した。
2. 研究の背景
従来の画像認識モデルは、ImageNetなどの固定されたラベルセットで学習され、新しいカテゴリへの適応が困難だった。また、自然言語による柔軟な画像理解ができなかった。大規模なウェブデータを活用した、より汎用的な視覚モデルが求められていた。
3. 提案手法
4億の画像-テキストペアをWebから収集し、画像エンコーダ(ResNetまたはViT)とテキストエンコーダ(Transformer)を対照学習で共同学習する。一致する画像-テキストペアの類似度を最大化し、不一致のペアの類似度を最小化する。推論時は、「a photo of a [class]」というテンプレートでテキスト埋め込みを生成し、画像埋め込みとの類似度で分類する。
4. 実験結果
ゼロショットでImageNetの分類精度76.2%を達成(学習データにImageNetを含まない)。30以上のデータセットでファインチューニングなしで競争力のある性能を示した。ResNet-50のImageNet学習済みモデルと同等以上のロバスト性を持ち、分布シフトに強いことも示された。
5. 意義と影響
CLIPはマルチモーダルAIの基盤モデルを確立した。DALL-E、Stable Diffusion、GPT-4V、Midjourney等、画像生成・理解AIの多くがCLIPの技術を利用している。また、画像検索、コンテンツモデレーション、ロボティクスなど広範な応用を可能にした。
6. 関連論文
| 論文 | 関係 |
|---|---|
| Vision Transformer | 画像エンコーダの基盤 |
| Latent Diffusion | 画像生成への応用 |
| GPT-2 | テキストエンコーダの基盤 |
[1] Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML 2021.
[2] arXiv:2103.00020
免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。