AI 엔진중급
실시간 음성 AI
Realtime Voice AI · Voice Agent · 음성 에이전트 · Speech-to-Speech
실시간 음성 AI는 300ms 이내에 듣고-이해하고-대답하는 전화 통화 수준의 음성 대화를 구현하는 기술이다. 시장은 2024년 $24억에서 2034년 $475억으로 CAGR 34.8% 성장이 전망된다.
- •두 아키텍처: 스트리밍 체인(STT→LLM→TTS, 유연) vs 엔드투엔드(gpt-realtime/Gemini, 최고 품질)
- •레이턴시가 곧 품질 — 1초 넘으면 포기율 40% 증가. Vapi 251ms, ElevenLabs <300ms
- •F500 67% 프로덕션 운영, 340% YoY 성장. 상호작용당 비용 $4.60→$1.45(68% 절감)
- •Google Translate+Gemini: 아무 헤드폰으로 70개+ 언어 실시간 통역(2025.12)