AI 기반심화

추론 시점 컴퓨트

Test-Time Compute · 테스트타임 컴퓨트 · 추론 시점 스케일링

추론 시점 컴퓨트란 모델을 크게 만드는 대신, 같은 모델이 추론 시에 더 많은 연산을 사용하도록 하여 성능을 높이는 접근이다. 작은 모델 + 추론 컴퓨트가 14배 큰 모델을 이길 수 있으며, o1, DeepSeek-R1, Claude 확장 사고 등이 이 원리를 활용한다.

•최적화된 추론 컴퓨트 스케일링은 best-of-N 대비 4배 효율적이고, 작은 모델이 14배 큰 모델을 이길 수 있다(Snell et al., 2024).
•o3/o4-mini는 쿼리당 토큰을 10~100배 늘려 AIME에서 98~99% 정답률을 달성한다. DeepSeek-R1은 동등 성능을 70% 낮은 비용으로 제공한다.
•2026년 기준 추론 수요가 훈련 수요의 118배다. NVIDIA Blackwell B200은 H100 대비 추론 성능을 최대 15배 향상시켰다.
•주의: Anthropic의 2025년 연구에서 더 많이 생각하면 오히려 성능이 떨어지는 역스케일링 현상도 발견되었다.

추론 시점 컴퓨트

관련 개념