AI 기반심화
DPO (Direct Preference Optimization)
Direct Preference Optimization · 직접 선호 최적화
DPO란 RLHF의 3단계 파이프라인에서 보상 모델 학습 단계를 제거하고, 정책 자체에서 암묵적 보상을 추출하여 이진 교차 엔트로피 손실로 직접 최적화하는 정렬 기법이다. "당신의 언어 모델은 은밀히 보상 모델이다"가 핵심 통찰이다.
- •RLHF 대비 보상 모델이 불필요하고, 학습이 안정적이며, 계산 비용이 낮다.
- •Zephyr-7B-β가 DPO만으로 AlpacaEval에서 LLaMA-2-70B-chat(RLHF)를 초과하는 90.60% 승률을 달성했다.
- •SimPO(Simple Preference Optimization, 2025)는 참조 모델마저 제거하여 더 단순하고 효율적인 정렬을 구현했다.