AI 기반중급

강화학습

Reinforcement Learning · RL

강화학습이란 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동 정책을 학습하는 방식이다. 알파고, 알파폴드, ChatGPT의 RLHF 등 AI 역사의 획기적 성과 뒤에 강화학습이 있다.

•탐색(새로운 시도) vs 활용(검증된 행동 반복)의 딜레마가 핵심 난제다.
•알파고(2016)는 자기 대국으로 인간이 발견하지 못한 수를 창조했고, 알파폴드(2020)는 50년간 풀지 못한 단백질 구조 예측을 해결했다.
•LLM 시대에는 RLHF로 핵심 역할을 한다. 사전학습 모델을 "인간이 선호하는 방식"으로 정렬하는 단계다.
•DPO, RLAIF, Constitutional AI 등 RLHF를 넘어서는 진화가 2024~2026년에 활발하다.

관련 개념