AI 엔진중급

음성 클론

Voice Cloning · 보이스 클로닝 · 음성 복제

음성 클론은 짧은 음성 샘플로 특정 화자의 목소리를 복제하여 새 텍스트를 그 사람의 음성으로 합성하는 기술이다. 3초 샘플로 복제 가능한 수준에 도달했으며, $11억 규모의 딥페이크 사기 시장을 만들어내는 양날의 검이다.

  • ElevenLabs: 인스턴트(30초)+프로페셔널(30분~3시간, 구별 불가 수준). 29개+ 언어 크로스링구얼
  • VALL-E 2(MS): 3초로 인간 수준 달성했으나 "너무 위험" 판단으로 비공개. OpenAI Voice Engine도 미출시
  • 오픈소스: Chatterbox(MIT, ElevenLabs 블라인드 63.75% 제압), XTTS-v2(6초), RVC(AI 커버 지배)
  • 규제 가속: EU AI Act(라벨링 의무), ELVIS Act(음성 재산권), 이탈리아(유해 딥페이크 1~5년 징역)

더 깊이 알고 싶다면

아키피디아로 돌아가기