AI 기반중급

스케일링 법칙

Scaling Laws · 스케일링 법칙

스케일링 법칙이란 AI 모델의 성능이 파라미터 수, 데이터 양, 컴퓨트에 따라 예측 가능하게 향상된다는 수학적 관계다. 수십억~수천억 달러 AI 투자의 이론적 근거이며, 2026년 현재 사전학습 규모에서 추론 시점 컴퓨트, 사후학습, 아키텍처 효율화로 다차원 확장 중이다.

•Kaplan(2020)은 "크면 강하다"를, Chinchilla(2022)는 "파라미터와 데이터의 균형이 답"을 증명했다. Chinchilla 최적은 파라미터 1개당 약 20개 토큰이다.
•Llama 3(8B)은 Chinchilla 최적의 94배 데이터로 학습하여, 작은 모델로 큰 모델 성능을 내면서 추론 비용을 1/9로 줄였다.
•능력 밀도(Densing Law): 파라미터당 성능이 3.3개월마다 2배 향상된다. 같은 성능을 점점 작은 모델로 달성 가능하다.
•인터넷의 양질 텍스트 ~300조 토큰이 2026~2032년 사이 고갈 전망이며, 합성 데이터가 필수 대안으로 부상했다.

스케일링 법칙

관련 개념