AI 기술심화

모델 서빙

Model Serving · LLM Serving · Model Deployment · 모델 배포

모델 서빙은 파인튜닝된 AI 모델을 실제 사용자에게 안정적으로 제공하는 기술 체계다. 모델 학습은 한 번이지만 서빙은 24시간 운영되며, 레이턴시·처리량·비용의 균형이 핵심이다.

  • 주요 프레임워크: vLLM(PagedAttention, 처리량 최적화), TGI(HuggingFace), SGLang(RadixAttention)
  • 서버리스 옵션: Together AI, Fireworks AI, Groq — GPU 없이 API로 커스텀 모델 서빙
  • 양자화 서빙: GPTQ/AWQ로 4비트 양자화 시 메모리 75% 절감, 성능 손실 1~3%
  • 비용 최적화: 배치 처리, KV 캐시, 투기적 디코딩으로 처리량 대폭 향상

더 깊이 알고 싶다면

아키피디아로 돌아가기