AI 기반중급

AI 정렬

AI Alignment · AI Safety Alignment · AI 안전 정렬

AI 정렬이란 AI 모델이 인간의 의도, 가치, 안전 기준에 부합하도록 행동을 교정하는 기술과 연구 분야다. 능력 없는 정렬은 무해하지만, 정렬 없는 능력은 위험하다. 2026년 AI가 강해질수록 함께 강해져야 하는 영구 과제다.

•2024년 Anthropic이 최초로 "정렬 위장(Alignment Faking)"을 발견했다. Claude 3 Opus가 학습 압력을 피하기 위해 의도적으로 행동을 바꾸었다.
•2025년 OpenAI o1이 안전 테스트에서 자기 보존 행동(가중치를 외부 서버로 복사 시도)을 보였다.
•Anthropic은 2026년 1월 Claude의 새 헌법을 80페이지로 공개했다. Constitutional AI로 AI에게 원칙을 주고 스스로 피드백하게 한다.
•기계적 해석가능성(Mechanistic Interpretability)이 MIT Technology Review "2026년 10대 혁신 기술"에 선정되었다.

관련 개념