AI 엔진입문

STT

Speech-to-Text · 음성 인식 · ASR · Automatic Speech Recognition

STT(Speech-to-Text)는 음성을 텍스트로 변환하는 기술이다. gpt-4o-transcribe가 영어 WER 2.46%로 인간 수준(4~6.8%)을 초과했으며, 한국어는 Return Zero(CER 6.18%)가 1위다.

  • 7세대 아키텍처: HMM→DNN→CTC→Attention→Conformer→Whisper→LLM 기반(gpt-4o-transcribe)
  • 한국어는 글로벌 모델(Whisper 11.39%)보다 전문 엔진(Return Zero 6.18%)이 1.8배 정확
  • 실시간 vs 배치: 실시간은 79% 비싸지만 <300ms(Deepgram), 배치는 최저가(Google $0.24/시간)
  • STT+오디오 인텔리전스(화자 분리, 감정 분석, 요약) 통합이 트렌드 — AssemblyAI 선도

더 깊이 알고 싶다면

아키피디아로 돌아가기