AI 기반중급

추론 최적화

Inference Optimization · AI 추론 최적화

추론 최적화란 학습이 끝난 AI 모델을 더 빠르게, 더 싸게, 더 적은 하드웨어로 실행하는 기술이다. AI 서비스 비용의 90% 이상이 추론에서 발생하며, 2년 만에 동일 품질 대비 추론 비용이 1/50 이하로 떨어졌다.

•GPT-4급 성능 기준, 입력 토큰 가격이 16개월 만에 $30→$3(-90%)로 하락했다.
•DeepSeek-V3는 GPT-4o 대비 1/21 가격이다. Sam Altman도 R1이 OpenAI 동급 대비 20~50배 저렴하다고 인정했다.
•양자화, KV캐시 최적화, 추측적 디코딩, 지식 증류의 조합이 비용 혁명을 이끌고 있다.
•NVIDIA Blackwell B200은 NVFP4 포맷으로 단일 GPU에서 10,755 토큰/초를 달성한다.

관련 개념