AI 기반심화

Flash Attention

FlashAttention

Flash Attention이란 어텐션 연산의 계산량(O(n²))은 그대로 두되, GPU 메모리 접근 패턴을 최적화하여 같은 연산을 2~4배 빠르게 수행하는 기술이다. 타일링으로 어텐션 행렬을 GPU 온칩 SRAM에서 블록 단위로 처리한다.

•표준 어텐션의 병목은 연산이 아니라 N×N 어텐션 행렬의 메모리 읽기/쓰기(메모리 바운드)다.
•FA-1(2022, 2~4배) → FA-2(2023, FA-1의 2배) → FA-3(2024, 740 TFLOPS) → FA-4(2026, 1,605 TFLOPS)로 진화했다.
•FlashAttention-4는 B200 GPU 이론 최대치의 71%에 해당하는 성능으로, 이전 SOTA 대비 1.3배 빠르다.

관련 개념