AI 기반심화
MoE (Mixture of Experts)
Mixture of Experts · 전문가 혼합 · 혼합 전문가 모델
MoE란 트랜스포머 레이어의 피드포워드 네트워크를 여러 "전문가" 네트워크로 대체하고, 라우터가 각 토큰마다 소수의 전문가만 활성화하는 효율적 확장 구조다. 총 파라미터의 "지식"을 유지하면서 추론 비용을 극적으로 낮춘다.
- •DeepSeek-V3은 671B 총 파라미터 중 37B만 활성화하여, GPT-4 수준 성능을 1/10 비용에 제공한다.
- •Llama 4 Maverick(400B 총/17B 활성), Qwen3.5(397B 총/17B 활성) 등 2024~2026년 프론티어 모델의 표준이 되었다.
- •DeepSeek의 보조 손실 없는 부하 분산, Fine-Grained Sparse Attention 등 아키텍처 혁신이 비용 효율을 더 끌어올렸다.
- •훈련 비용도 혁신적이다. DeepSeek-V3는 560만 달러로 GPT-4급 모델을 만들었다.