AI 기반입문

토큰화

Tokenization · 토크나이제이션

토큰화란 텍스트를 AI 모델이 처리할 수 있는 숫자 단위(토큰)로 분해하는 과정이다. "AI의 눈"에 해당하며, 토큰화 방식이 모델의 성능, 비용, 다국어 처리 능력을 근본적으로 결정한다.

  • 서브워드 토큰화가 승리한 절충안이다. 자주 쓰는 단어는 통째로, 드문 단어는 의미 있는 조각으로 분해한다.
  • 같은 의미의 텍스트를 한국어로 쓰면 영어 대비 토큰이 4~5배 더 소비되어 API 비용도 4~5배다.
  • 어휘 크기는 GPT-4의 100K에서 Gemma 3의 262K로 확대 추세이며, 비영어 토큰 효율이 개선되고 있다.
  • BLT(Byte Latent Transformer)처럼 토큰화 자체를 없애는 바이트 수준 모델이 차세대 후보로 부상 중이다.

관련 개념

더 깊이 알고 싶다면

아키피디아로 돌아가기