AI 기반중급

RLHF

Reinforcement Learning from Human Feedback · 인간 피드백 기반 강화학습

RLHF란 인간이 선호하는 답변을 강화학습으로 모델에 학습시키는 3단계 프로세스다. SFT → 보상 모델 학습 → PPO 정책 최적화로 구성되며, 1.3B의 정렬된 모델이 175B GPT-3보다 선호될 만큼 강력한 기법이다.

•InstructGPT(2022)에서 최초 대규모 적용되었다. 1.3B 파라미터의 정렬된 모델이 175B GPT-3보다 인간 평가에서 선호되었다.
•2025년 기준 기업의 70%가 RLHF 또는 DPO를 채택했다(2023년 25%에서 상승).
•보상 해킹(정확하지 않지만 선호되는 답변), 모드 붕괴(다양성 상실), 아첨(옳은 답보다 기분 좋은 답) 등의 한계가 있다.
•RLTHF(Targeted Human Feedback)는 인간 어노테이션 노력의 6~7%만으로 동등 성능을 달성하여 비용을 대폭 절감했다.

관련 개념