AI 엔진입문

TTS

Text-to-Speech · 음성 합성 · 텍스트 투 스피치

TTS(Text-to-Speech)는 텍스트를 인간의 음성으로 변환하는 기술이다. 2026년 기준 감정·비언어적 뉘앙스까지 제어 가능하여 "읽는 것"을 넘어 "연기하는" 수준에 도달했다.

  • 시장 $4~5B(2026), 연 13~15% 성장. 음성 에이전트 붐과 함께 폭발적 수요 증가
  • 아키텍처 진화: 연결형→WaveNet→Tacotron→VITS→코덱 언어 모델(VALL-E)→Flow Matching
  • 핵심 경쟁력은 TTFB — Cartesia 40ms, ElevenLabs 75ms. 1초 넘으면 전화 포기율 40% 증가
  • 오픈소스 역전: Kokoro(82M) <$1/100만자, Chatterbox(MIT)가 ElevenLabs를 블라인드 테스트에서 제압

더 깊이 알고 싶다면

아키피디아로 돌아가기