AI 기반중급
스케일링 법칙
Scaling Laws · 스케일링 법칙
스케일링 법칙이란 AI 모델의 성능이 파라미터 수, 데이터 양, 컴퓨트에 따라 예측 가능하게 향상된다는 수학적 관계다. 수십억~수천억 달러 AI 투자의 이론적 근거이며, 2026년 현재 사전학습 규모에서 추론 시점 컴퓨트, 사후학습, 아키텍처 효율화로 다차원 확장 중이다.
- •Kaplan(2020)은 "크면 강하다"를, Chinchilla(2022)는 "파라미터와 데이터의 균형이 답"을 증명했다. Chinchilla 최적은 파라미터 1개당 약 20개 토큰이다.
- •Llama 3(8B)은 Chinchilla 최적의 94배 데이터로 학습하여, 작은 모델로 큰 모델 성능을 내면서 추론 비용을 1/9로 줄였다.
- •능력 밀도(Densing Law): 파라미터당 성능이 3.3개월마다 2배 향상된다. 같은 성능을 점점 작은 모델로 달성 가능하다.
- •인터넷의 양질 텍스트 ~300조 토큰이 2026~2032년 사이 고갈 전망이며, 합성 데이터가 필수 대안으로 부상했다.