AI 기반중급

BPE (Byte Pair Encoding)

Byte Pair Encoding · 바이트 페어 인코딩

BPE란 데이터에서 가장 빈번한 바이트(또는 문자) 쌍을 반복적으로 병합하여 서브워드 어휘를 구축하는 토큰화 알고리즘이다. 1994년 데이터 압축에서 시작하여 2015년 NLP에 적용된 이래 GPT-5, Claude 4.6, DeepSeek-V3 등 대부분의 LLM이 사용한다.

•바이트 단위로 시작하여 빈번한 쌍을 반복 병합한다. 어휘 크기에 도달할 때까지 반복하면, 빈번한 단어는 통째로, 드문 단어는 서브워드로 분해된다.
•GPT-2부터 Byte-level BPE가 표준이다. 256가지 바이트로 시작하므로 어떤 텍스트든 OOV(미지 토큰) 없이 표현 가능하다.
•SuperBPE(2025)는 단어 경계를 넘는 병합으로 33% 토큰 절감과 MMLU 8.2% 성능 향상을 달성했다.
•tiktoken(OpenAI, Rust 구현)은 150,000 토큰/초로 가장 빠르고, SentencePiece(Google)는 학습+추론 모두 가능하다.

BPE (Byte Pair Encoding)

관련 개념