AI 엔진심화

디퓨전 트랜스포머

DiT · Diffusion Transformer · Video DiT

디퓨전 트랜스포머(DiT)는 U-Net 기반 디퓨전의 백본을 트랜스포머로 교체한 아키텍처로, 영상을 시공간 패치(spacetime patches)로 분해하여 처리한다. Sora가 대표 모델이다.

  • 영상의 각 시공간 패치가 트랜스포머 토큰 역할 — LLM의 단어 토큰과 동일한 개념
  • 파라미터와 데이터를 늘리면 물체 영속성, 3D 일관성 등 창발적 능력이 자동 출현
  • 3D 시공간 위치 인코딩으로 고정 그리드 없이 임의의 해상도·비율·길이를 유연하게 처리
  • GAN→디퓨전→DiT→Flow Matching→월드 모델로 이어지는 아키텍처 진화의 핵심 전환점

더 깊이 알고 싶다면

아키피디아로 돌아가기