AI 엔진심화
잠재 확산 모델
LDM · Latent Diffusion Model · Latent Diffusion
잠재 확산 모델(LDM)은 이미지를 축소된 잠재 공간(latent space)에서 디노이징하여 생성하는 아키텍처로, Stable Diffusion·Midjourney 등 주요 이미지 생성 AI의 기반 기술이다.
- •VAE로 이미지를 8배 축소(786K→16K 값)하여 잠재 공간에서 작업 — 계산량 48배 감소
- •노이즈 예측 모델(U-Net/MMDiT)이 잠재 공간에서 반복 디노이징, CLIP으로 텍스트 조건 주입
- •소비자 GPU에서 고해상도 이미지 생성이 가능해진 핵심 혁신 — 이것 없이는 서버급 GPU만 사용 가능
- •Robin Rombach(현 Flux 창업자)가 LMU Munich에서 2021년 발명. SD와 Flux의 공통 조상