AI 기반심화

셀프어텐션

Self-Attention · 자기 주의 메커니즘

셀프어텐션이란 시퀀스 내 모든 위치가 다른 모든 위치를 직접 참조하여 관계를 파악하는 메커니즘이다. 각 토큰이 Query(찾는 것), Key(가진 것), Value(제공하는 정보) 세 벡터를 만들어 상호 유사도를 계산한다.

•Attention(Q,K,V) = softmax(QK^T / √d_k) × V 공식으로, 모든 토큰 쌍의 관련도를 계산하고 가중합으로 정보를 모은다.
•RNN에서 1번째→1,000번째 토큰까지 999번의 변환이 필요하지만, 셀프어텐션은 직접 연결로 정보 손실이 없다.
•멀티헤드 어텐션으로 문법·의미·위치 등 여러 관계를 동시에 포착한다. Llama 3 70B는 64개 Q헤드와 8개 KV헤드(GQA)를 사용한다.
•계산량이 시퀀스 길이의 제곱(O(n²))으로 증가하는 것이 구조적 약점이다.

관련 개념