AI 기반중급
사전학습
Pre-training · 프리트레이닝
사전학습이란 대규모 텍스트 데이터에서 "다음 토큰을 예측하라"는 목표로 언어의 패턴, 지식, 추론 능력을 습득하는 AI 모델 훈련의 첫 번째 단계다. 모든 LLM 능력의 기반이 여기서 결정되며, 이후 파인튜닝과 정렬은 이미 습득한 능력을 정제할 뿐이다.
- •데이터가 3년 만에 130배 증가했다. GPT-3(300B 토큰) → Llama 2(2T) → Llama 4 Scout(40T).
- •DeepSeek-V3는 560만 달러, GPU 활용률 85%로 GPT-4급 모델을 만들어 "돈이 많은 쪽이 이긴다"는 공식을 깼다.
- •2025~2026년 세 가지 전환이 동시에 진행 중이다. ① 사전학습→후훈련 중심 이동 ② 데이터 벽 접근 ③ 효율성 혁명.
- •Ilya Sutskever는 "사전학습 스케일링 시대가 끝났다"고 선언했고, Dario Amodei는 "아마 계속될 것"이라 반박했다.