AI 기술심화

LoRA와 QLoRA

LoRA · QLoRA · Low-Rank Adaptation · Quantized LoRA

LoRA(Low-Rank Adaptation)와 QLoRA(Quantized LoRA)는 대형 언어 모델을 효율적으로 파인튜닝하는 기법이다. 전체 모델 가중치를 얼려두고 작은 행렬 두 개만 학습시켜, 학습 파라미터를 전체의 0.1~1%로 줄인다.

  • 70B 모델을 단일 RTX 4090(24GB, 약 200만 원)에서 파인튜닝 가능 — 기존 H100 클러스터 대비 비용 수십 배 절감
  • 주요 도구: LLaMA-Factory(68.4K 스타, GUI 기반), Unsloth(53.9K 스타, 속도 2배, 메모리 70% 절감)
  • 2026.02 논문: 학습률을 제대로 튜닝하면 모든 LoRA 변종이 1~2% 이내 유사 성능에 수렴
  • QLoRA: 4비트 양자화 + LoRA 결합. 65B 모델을 48GB GPU에서 학습, 성능 손실 거의 없음

더 깊이 알고 싶다면

아키피디아로 돌아가기