AI 기술심화
LoRA와 QLoRA
LoRA · QLoRA · Low-Rank Adaptation · Quantized LoRA
LoRA(Low-Rank Adaptation)와 QLoRA(Quantized LoRA)는 대형 언어 모델을 효율적으로 파인튜닝하는 기법이다. 전체 모델 가중치를 얼려두고 작은 행렬 두 개만 학습시켜, 학습 파라미터를 전체의 0.1~1%로 줄인다.
- •70B 모델을 단일 RTX 4090(24GB, 약 200만 원)에서 파인튜닝 가능 — 기존 H100 클러스터 대비 비용 수십 배 절감
- •주요 도구: LLaMA-Factory(68.4K 스타, GUI 기반), Unsloth(53.9K 스타, 속도 2배, 메모리 70% 절감)
- •2026.02 논문: 학습률을 제대로 튜닝하면 모든 LoRA 변종이 1~2% 이내 유사 성능에 수렴
- •QLoRA: 4비트 양자화 + LoRA 결합. 65B 모델을 48GB GPU에서 학습, 성능 손실 거의 없음