AI 기반중급

강화학습

Reinforcement Learning · RL

강화학습이란 에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동 정책을 학습하는 방식이다. 알파고, 알파폴드, ChatGPT의 RLHF 등 AI 역사의 획기적 성과 뒤에 강화학습이 있다.

  • 탐색(새로운 시도) vs 활용(검증된 행동 반복)의 딜레마가 핵심 난제다.
  • 알파고(2016)는 자기 대국으로 인간이 발견하지 못한 수를 창조했고, 알파폴드(2020)는 50년간 풀지 못한 단백질 구조 예측을 해결했다.
  • LLM 시대에는 RLHF로 핵심 역할을 한다. 사전학습 모델을 "인간이 선호하는 방식"으로 정렬하는 단계다.
  • DPO, RLAIF, Constitutional AI 등 RLHF를 넘어서는 진화가 2024~2026년에 활발하다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기