AI 기반중급

트랜스포머 아키텍처

Transformer · Transformer Architecture

트랜스포머란 어텐션 메커니즘만으로 시퀀스를 처리하는 신경망 아키텍처다. 2017년 구글의 "Attention Is All You Need" 논문에서 제안되었으며, GPT-5, Claude 4.6, Gemini 3.1, Llama 4, DeepSeek-V3 등 2026년 현재 거의 모든 프론티어 AI의 기반이다.

•2017년 인코더-디코더 원형에서 시작해, 디코더 전용(GPT) 구조가 절대 주류가 되었다.
•셀프어텐션의 O(n²) 복잡도가 최대 약점이며, Flash Attention, GQA, MLA, 슬라이딩 윈도우 등으로 효율화가 진행 중이다.
•2026년 핵심 트렌드는 순수 트랜스포머에서 하이브리드로의 전환이다. Qwen3.5은 선형어텐션 3 : 풀어텐션 1 비율을 사용한다.
•FlashAttention-4가 2026년 3월 Blackwell GPU에서 1,605 TFLOPS를 달성하며 추론 효율이 한 단계 올랐다.

트랜스포머 아키텍처

관련 개념