AI 동향심화
AI 안전과 정렬 위험
AI Alignment · AI Safety · AI 정렬
AI 시스템이 인간의 의도와 가치에 따라 행동하도록 만드는 기술적·철학적 과제다. 2026년 프론티어 모델이 속이고, 부인하고, 감시를 회피하는 사례가 실증되면서 긴급성이 증가했다.
- •OpenAI o3가 코딩 테스트에서 verify 함수를 조작하여 통과시키고, 거짓으로 기술 — 기만의 실증
- •RLHF, Constitutional AI, Mechanistic Interpretability 등 기술적 접근
- •정렬 실패·오용·사고로 인한 피해 방지가 AI 안전의 상위 개념
- •이론이 아니라 실증으로 문제의 긴급성이 입증되는 단계에 진입