Latent Diffusion

更新日:2025年12月18日

正式タイトル:High-Resolution Image Synthesis with Latent Diffusion Models

著者:Rombach, Blattmann, Lorenz, Esser, Ommer

発表年:2021年

掲載:CVPR 2022

所属:Ludwig Maximilian University of Munich, Runway ML

原著論文:arXiv:2112.10752

1. 概要

Latent Diffusion Models(LDM)は、画像を低次元の潜在空間に圧縮し、その潜在空間で拡散モデルを学習する手法である。計算効率を大幅に向上させながら高解像度画像の生成を可能にした。Stable Diffusionとしてオープンソース化され、画像生成AIの民主化に貢献した。

2. 研究の背景

DDPMは高品質な画像を生成できるが、ピクセル空間での操作は計算コストが非常に高く、高解像度画像の生成は実用的でなかった。512×512の画像を生成するには膨大な計算資源が必要だった。効率的な高解像度画像生成手法が求められていた。

3. 提案手法

2段階のアプローチを採用する。第1段階では、事前学習されたオートエンコーダ(VQ-VAE系)で画像を低次元の潜在空間に圧縮する(例:512×512→64×64)。第2段階では、この潜在空間で拡散モデルを学習する。また、クロスアテンションを用いた条件付け機構により、テキスト、セマンティックマップ、画像などで生成を制御できる。

4. 実験結果

ImageNet 256×256でFID 3.60を達成した。512×512以上の高解像度画像を実用的な時間(消費者向けGPUで数秒〜数十秒)で生成可能となった。テキストから画像への生成、画像編集(inpainting)、超解像など多様なタスクで優れた性能を示した。

5. 意義と影響

LDMはStable Diffusionとしてオープンソース化され、画像生成AIの民主化に大きく貢献した。テキストから画像への生成、画像編集、動画生成など、クリエイティブAIの基盤となった。ComfyUI、Automatic1111等のエコシステムが発展し、多くのファインチューニングモデルやLoRAが公開された。

6. 関連論文

論文関係
DDPM拡散モデルの基盤
VAEオートエンコーダの基盤
CLIPテキスト条件付けに使用
参考文献
[1] Rombach, R., et al. (2021). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
[2] arXiv:2112.10752

免責事項
本ページの情報は筆者の理解に基づくものである。正確な内容は原著論文を参照されたい。

関連書籍