AI 기반심화

LoRA

Low-Rank Adaptation · QLoRA · LoRA 파인튜닝

LoRA란 모델의 가중치 행렬을 직접 바꾸지 않고 작은 저랭크 행렬 두 개를 삽입하여 "변화량"만 학습하는 파라미터 효율적 파인튜닝(PEFT) 기법이다. 학습 파라미터를 전체의 0.1~1%로 줄이면서, 추론 시 추가 비용이 0이다.

•Y = WX + BAX 구조로, 원래 가중치 W는 고정하고 저랭크 행렬 B,A만 학습한다. 랭크 r은 보통 8~32으로 전체 차원의 0.1~1%다.
•QLoRA는 사전학습 가중치를 4-bit 양자화한 상태에서 LoRA를 적용한다. 70B 모델을 24GB GPU에서 파인튜닝 가능하게 만들었다.
•DoRA(방향/크기 분리), AdaLoRA(적응적 랭크 할당) 등 발전형이 등장하여 도메인 특화 파인튜닝 품질을 높이고 있다.
•Unsloth 프레임워크는 학습 속도 2배, 메모리 사용 60% 절감을 달성했다.

관련 개념