AI 기반중급

디퓨전 모델

Diffusion Model · 확산 모델

디퓨전 모델이란 이미지에 점진적으로 노이즈를 추가하는 과정을 학습한 후, 그 역과정(노이즈 → 깨끗한 이미지)을 수행하여 이미지를 생성하는 신경망이다. 2026년 현재 Stable Diffusion, Flux, Midjourney, DALL-E 3, Sora 등 이미지·영상 생성의 표준이다.

•정방향(깨끗한 이미지 → 노이즈)을 학습하고, 역방향(노이즈 → 깨끗한 이미지)을 수행한다. "각 단계에서 노이즈를 얼마나 제거할지"를 학습하는 것이 핵심이다.
•GAN 대비 학습이 안정적이고, 생성 결과의 다양성과 품질이 우수하다.
•수십~수백 단계에 걸쳐 점진적으로 이미지를 생성하므로 추론 속도가 느린 것이 약점이다. 1장당 수 초~수십 초가 소요된다.
•2020년 DDPM 논문 이후 3년 만에 GAN을 대체했으며, 트랜스포머와 결합한 DiT(Diffusion Transformer) 하이브리드가 2025~2026년 주류다.

디퓨전 모델

관련 개념