AI 엔진심화

잠재 확산 모델

LDM · Latent Diffusion Model · Latent Diffusion

잠재 확산 모델(LDM)은 이미지를 축소된 잠재 공간(latent space)에서 디노이징하여 생성하는 아키텍처로, Stable Diffusion·Midjourney 등 주요 이미지 생성 AI의 기반 기술이다.

  • VAE로 이미지를 8배 축소(786K→16K 값)하여 잠재 공간에서 작업 — 계산량 48배 감소
  • 노이즈 예측 모델(U-Net/MMDiT)이 잠재 공간에서 반복 디노이징, CLIP으로 텍스트 조건 주입
  • 소비자 GPU에서 고해상도 이미지 생성이 가능해진 핵심 혁신 — 이것 없이는 서버급 GPU만 사용 가능
  • Robin Rombach(현 Flux 창업자)가 LMU Munich에서 2021년 발명. SD와 Flux의 공통 조상

더 깊이 알고 싶다면

아키피디아로 돌아가기