AI 기반심화

양자화

Quantization · 모델 양자화

양자화란 모델의 가중치를 낮은 정밀도(비트 수)로 변환하여 메모리와 연산을 절감하는 기법이다. FP32를 INT8이나 INT4로 줄이면 메모리가 4~8배 줄고 연산도 빨라지며, 성능 보존율은 98~99%에 달한다.

  • INT4 양자화는 MMLU-Pro 기준 추론 능력의 98.1%를 유지하면서 BF16 대비 2.69배 처리량을 달성한다.
  • AWQ(Activation-aware Weight Quantization, MLSys 2024 Best Paper)는 전체 가중치의 1%만 보호해도 양자화 오류가 크게 줄어든다는 핵심 발견을 했다.
  • GGUF(llama.cpp 포맷)는 2~8비트 혼합 양자화로 소비자 하드웨어에서도 LLM을 실행 가능하게 만들었다.
  • Blackwell B200의 NVFP4는 BF16 대비 2.23배 빠른 추론, H100 대비 최대 4배(MLPerf) 성능을 보인다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기