AI 엔진심화
디퓨전 트랜스포머
DiT · Diffusion Transformer · Video DiT
디퓨전 트랜스포머(DiT)는 U-Net 기반 디퓨전의 백본을 트랜스포머로 교체한 아키텍처로, 영상을 시공간 패치(spacetime patches)로 분해하여 처리한다. Sora가 대표 모델이다.
- •영상의 각 시공간 패치가 트랜스포머 토큰 역할 — LLM의 단어 토큰과 동일한 개념
- •파라미터와 데이터를 늘리면 물체 영속성, 3D 일관성 등 창발적 능력이 자동 출현
- •3D 시공간 위치 인코딩으로 고정 그리드 없이 임의의 해상도·비율·길이를 유연하게 처리
- •GAN→디퓨전→DiT→Flow Matching→월드 모델로 이어지는 아키텍처 진화의 핵심 전환점