AI 기반중급
강화학습
Reinforcement Learning · RL
강화학습이란 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동 정책을 학습하는 방식이다. 알파고, 알파폴드, ChatGPT의 RLHF 등 AI 역사의 획기적 성과 뒤에 강화학습이 있다.
- •탐색(새로운 시도) vs 활용(검증된 행동 반복)의 딜레마가 핵심 난제다.
- •알파고(2016)는 자기 대국으로 인간이 발견하지 못한 수를 창조했고, 알파폴드(2020)는 50년간 풀지 못한 단백질 구조 예측을 해결했다.
- •LLM 시대에는 RLHF로 핵심 역할을 한다. 사전학습 모델을 "인간이 선호하는 방식"으로 정렬하는 단계다.
- •DPO, RLAIF, Constitutional AI 등 RLHF를 넘어서는 진화가 2024~2026년에 활발하다.