AI 기반입문

AI 벤치마크

AI Benchmark · AI 평가 · LLM Benchmark

AI 벤치마크란 AI 모델의 능력을 측정·비교하는 표준화된 시험과 방법론이다. 2026년 현재 MMLU, GSM8K, HumanEval 등 기존 시험은 만점에 가까워 변별력을 잃었고, 점수와 실제 사용 경험의 괴리는 갈수록 벌어지는 "측정의 위기" 상태다.

•MMLU 94.3%, GSM8K 99%, HumanEval 99%로 주요 벤치마크가 포화되었다.
•Arena(구 LMSYS Chatbot Arena)가 가장 신뢰받는 평가다. 500만+ 투표, 400+ 모델, 150개국 기반의 실사용 선호도 랭킹이다.
•ARC-AGI-2(추상 추론, 최고 77.1%), FrontierMath(연구 수학, 최고 40%+), Humanity's Last Exam(최고 37.5%) 등이 아직 변별력 있는 벤치마크다.
•SWE-bench Verified(실제 코딩, Claude Opus 4.5 80.9%)는 실전 코딩 능력을 측정하는 가장 실용적인 벤치마크다.

관련 개념