AI 기반중급

BPE (Byte Pair Encoding)

Byte Pair Encoding · 바이트 페어 인코딩

BPE란 데이터에서 가장 빈번한 바이트(또는 문자) 쌍을 반복적으로 병합하여 서브워드 어휘를 구축하는 토큰화 알고리즘이다. 1994년 데이터 압축에서 시작하여 2015년 NLP에 적용된 이래 GPT-5, Claude 4.6, DeepSeek-V3 등 대부분의 LLM이 사용한다.

  • 바이트 단위로 시작하여 빈번한 쌍을 반복 병합한다. 어휘 크기에 도달할 때까지 반복하면, 빈번한 단어는 통째로, 드문 단어는 서브워드로 분해된다.
  • GPT-2부터 Byte-level BPE가 표준이다. 256가지 바이트로 시작하므로 어떤 텍스트든 OOV(미지 토큰) 없이 표현 가능하다.
  • SuperBPE(2025)는 단어 경계를 넘는 병합으로 33% 토큰 절감과 MMLU 8.2% 성능 향상을 달성했다.
  • tiktoken(OpenAI, Rust 구현)은 150,000 토큰/초로 가장 빠르고, SentencePiece(Google)는 학습+추론 모두 가능하다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기