'듣는 콘텐츠' 시장에 AI 음성합성 기술 '활짝'

네이버 오디오 콘텐츠 화력 강화…AI 음성 서비스 '클로바 더빙'도 인기 상승
네오사피엔스·휴멜로 등 관련 기업 부각…"AI 음성, 콘텐츠 제작 필수될 것"

최근 듣는 콘텐츠가 뜨고 있다. AI 스피커와 커넥티드카 등 차세대 콘텐츠 플랫폼과 연동하기 쉽고, 멀티태스킹이 필수인 현대인들에게 적합한 콘텐츠라는 점에서 많은 가능성을 보인다.

이와 함께 오디오 콘텐츠 시장 확대를 이끌 핵심 기술로 인공지능(AI)이 떠오르고 있다. AI 음성 합성 기술을 활용하면 실제 사람이 녹음하지 않더라도 진짜 목소리와 흡사한 자연스러운 음성을 구현해낼 수 있다. 이는 오디오 콘텐츠 제작 효율성을 크게 높이는 데도 기여할 것으로 기대된다. 최근 네이버를 비롯해 관련 기업들이 AI 성우 개발에 주력하는 이유다.

■ 네이버, 듣는 콘텐츠 경쟁력 강화⋯콘텐츠·기술 영역 쌍끌이

최근 네이버는 오디오북 콘텐츠 확대에 적극적으로 나서고 있다. 네이버의 오디오 콘텐츠 플랫폼 '오디오클립'은 최근 기존 도서 기반의 오디오 콘텐츠를 넘어 영화, 드라마, 예능 등 다양한 콘텐츠를 실험적으로 생산하고 있다.

지난 18일 네이버는 '오디오 시네마'라는 듣는 영화 3편을 공개했다. 웹툰 원작의 '두근구근두근 거려', '그대 곁에 잠들다', '남과 여' 등 3편이다. 모두 웹툰 혹은 웹 소설에 기반을 둔 콘텐츠다. 각 영화에는 찬열, 이제훈, 유인나, 강소라 등 유명 배우들이 출연해 화제를 모으고 있다. 지난 4월에는 실시간 스트리밍 서비스인 '오디오 클립 나우'를 선보이기도 했다.

영상 콘텐츠 플랫폼은 이미 유튜브가 시장을 장악한 상황이다. 네이버는 유튜브에 대항할만한 새로운 콘텐츠 플랫폼으로 동영상이 아닌 오디오 콘텐츠에 주목한 것으로 보인다. 콘텐츠 성과도 긍정적이다. 네이버에 따르면, 오디오클립의 주간 이용자는 지난 1월 대비 6월에 2배 증가했다.

또 네이버의 AI 기술 강화 차원에서도 이런 오디오 콘텐츠 확보가 중요한 역할을 담당할 것으로 보인다. 네이버는 AI 플랫폼 클로바의 음성 기술 '클로바 보이스'를 지속 개발 중이다. AI 음성 합성 기술로 네이버는 배우 유인나와 아나운서 오상진의 목소리를 완벽 구현, 네이버 내 음성 뉴스나 일부 오디오 콘텐츠에 선보이고 있다.

지난달 네이버는 오상진 아나운서의 목소리를 AI 음성합성으로 구현해 네이버 뉴스 '본문 읽기' 기능에 도입했다고 밝혔다. 코로나19 영향으로 비대면 콘텐츠가 늘어나면서 이런 AI 음성합성 서비스는 더욱 주목받고 있다. 네이버에 따르면 현재 네이버의 AI 음성합성 지원 서비스 '클로바 더빙' 가입자는 10만 명을 돌파했다. 지난 2월 서비스를 발표한 이후 4개월 만의 성과다. 누적 더빙 음성 생성 건수는 1000만 건에 달한다.

네이버 AI 성우 클로바더빙 가입자 10만 명 돌파 관련 이미지. 사진=네이버

네이버는 오디오 콘텐츠 다각화로 AI 음성 기술 활용 범위를 넓힘과 동시에, 클로바 보이스 등 기술 고도화를 통해 음성 AI 시장 전반을 확장·선도해나갈 수 있다.

김재민 네이버 클로바 보이스 리더는 "‘클로바더빙’ 서비스가 교육 현장에서 비대면 콘텐츠 제작의 편의성을 제공하는 것을 넘어, 국내 크리에이터 및 기업의 콘텐츠가 글로벌로 더욱 확산하는데 기여할 것으로 기대된다”면서, “특히 일반인의 목소리로 AI 보이스를 제작함으로써, 클로바 보이스의 비전 중 하나인 '자신의 목소리를 자유롭게 공유하는 보이스 마켓'에도 한 발짝 다가서게 됐다”고 말했다.

■ AI 음성합성 시장 수면 위로⋯콘텐츠 시장 ‘필수템’ 자리매김

이 같은 음성 합성 기술은 네이버 외에도 전문 기업들 중심으로 서비스 형태로 등장하고 있다. 디지털 콘텐츠 시장이 커지면서 영상 콘텐츠는 물론 오디오북 등 오디오 콘텐츠에 AI 음성 활용도가 나날이 높아지고 있기 때문이다.

AI 음성 전문기업 네오사피엔스는 지난 17일 웅진씽크빅과 이 기술을 활용한 오디오북 2종을 제작했다고 발표했다. 네오사피엔스 측은 "오디오북 시장의 발전 가능성에 주목해 AI 음성을 통해 오디오북 시장을 새롭게 개척하고자 이번 프로젝트를 진행했다"고 설명했다.

오디오북 시장은 빠르게 성장하고 있으나 제작 시간과 비용 면에서 부담이 되는 측면이 있는데, 이를 AI 음성 합성 기술로 극복할 수 있을 것이란 기대가 나오고 있다고 이 회사는 설명했다. 네오사피엔스는 현재 60여 종의 음성을 제공해주는 AI 성우 서비스 '타입캐스트'를 운영하고 있다. 전문 성우 목소리를 로우 데이터로 추출, 딥러닝 학습을 통해 AI 음성을 만드는 것이다. 회사는 타입캐스트가 오디오북 외에도 다큐멘터리 등 방송영상, 더빙, 뉴스, 교육 콘텐츠 제작에 더욱 적극적으로 활용될 것으로 기대한다.

휴멜로도 AI 성우 서비스 '프로소디'를 출시했다. 이 AI 음성은 특히 감정을 생성해내는 데 특화됐다. 서비스는 AI 음성합성을 통해 화냄, 흥분, 즐거움, 차분함, 두려움, 슬픔 등 실제 성우가 연출하는 다양한 감정 표현을 만들어낼 수 있다.

휴멜로 측은 "유명인이 자신의 목소리를 제공하면 연기력과 상관없이 연출할 수 있다. 사용 언어도 한국에, 영어 등 선택할 수 있다"면서 "이전엔 음성합성 기술을 위해 최소 3시간 이상의 녹음이 필요했지만, 프로소디는 30분 녹음으로도 음성 제공자의 목소리를 완벽하게 재현한다"고 설명했다.

업계 관계자는 “AI 음성합성 기술은 오디오 콘텐츠를 포함한 디지털 콘텐츠 영역에서 필수적인 요소로 자리 잡는 중”이라면서 “엔터테인먼트 미디어 부분에서 꼭 필요한 부분으로, 관련 시장은 더욱 커질 것으로 전망하고 있다”고 말했다.

박수현 글로벌이코노믹 기자 psh@g-enews.com