AI 기술심화

에이전트 평가

Agent Evaluation · AI Agent Benchmark · 에이전트 벤치마크

에이전트 평가는 AI 에이전트가 의도한 대로 작동하는지 측정하고, 의도하지 않은 행동으로부터 사람과 시스템을 보호하는 기술·방법론·거버넌스 체계다. 능력이 올라갈수록 안전이 더 중요해진다.

•SWE-bench Verified: Claude Opus 4.5가 80.9% 달성 — GitHub 이슈를 자동으로 PR로 해결
•METR 시간 지평선: AI 에이전트의 자율 작업 능력이 약 4.3개월마다 2배 성장. Opus 4.6은 인간 14시간 작업을 50% 확률로 수행
•OSWorld: OSAgent가 76.3%로 인간 기준(72.4%) 돌파 — 실제 OS에서 작업 수행
•Anthropic RSP v3.0(2026.02): ASL-3 시행 중. Gartner 예측: 에이전틱 AI 프로젝트 40%+ 2027년 말까지 취소

더 깊이 알고 싶다면