[뉴스토마토 홍연 기자] 국내 정보통신기술(ICT) 기업들이 인공지능(AI) 음성합성기술 개발과 고도화에 힘쓰고 있다. AI 음성합성기술이 쇼핑, 챗봇, 커넥티드 카, 사물인터넷(IoT) 등 다양한 신산업에 확대 적용할 수 있는 만큼, 앞으로의 시장 잠재력에 주목하고 있는 것으로 풀이된다.
글로벌 시장조사업체 '마켓앤마켓(MarketsandMarkets)'에 따르면 2021년 약 83억달러 규모였던 전 세계 음성 인식 시장은 연평균 21.6%씩 성장해 2026년에는 220억달러까지 증가할 것으로 전망되고 있다. 한국신용정보원은 국내 음성 AI시장 규모를 2025년 2조4900억원까지 성장할 것으로 예측했다.
음성 AI 관련 연구에서 두각을 나타내고 있는 네이버(
NAVER(035420))는 클로바 스마트스피커, 클로바 노트, 클로바 케어콜 등 다양한 AI 서비스에 음성 AI 기술을 활용하고 있다. 네이버는 'NES(Natural End-to-end Speech synthesis system)' 기술을 강점으로 내세우고 있다. 네이버 관계자는 "분야에 대한 제약 없이 짧은 녹음 시간만으로 실제 사람의 목소리와 비슷한 제작이 가능하다는 것이 특징"이라고 설명했다.
네이버는 네이버클라우드 플랫폼에서 클로바가 개발한 AI 음성합성기술을 응용프로그램인터페이스(API) 형태로 수익화했다. 목소리 녹음 없이도 인공지능(AI)으로 편하게 더빙할 수 있는 '클로바 더빙'과 사용자 목소리를 AI 보이스로 만들 수 있는 '보이스메이커' 등 B2C 서비스에는 별도로 과금이 이뤄지지 않고 있다. 내비게이션, 파파고, 뉴스 읽기 등 음성이 들어가는 모든 곳에 적용이 가능하고 다양한 방식으로 서비스 활용성이 높은 만큼, 네이버는 앞으로 AI 음성합성기술 시장 성장이 가속화할 것으로 보고 있다.
음성 데이터를 많이 확보한 통신3사의 경우 AI 기반 음성 안내 서비스 개발이 주로 이뤄지고 있다.
KT(030200)는 최근 음성합성 기술에서 '감정 더빙'을 차별화 포인트로 내세웠다. 사용자가 자신의 목소리를 5분가량 녹음하면 즐거움, 침착함, 중립, 슬픔, 화남의 5가지 감정으로 음성 콘텐츠를 합성할 수 있다. KT 관계자는 "화난 감정을 담아서 문장을 읽어 학습시키면 일관되거나 정형화된 방식이 아니라 개인화된 감정을 입혀주는 것"이라며 "국내 AI기업인 ‘휴멜로’의 음성합성 엔진과 소량의 데이터만으로 학습이 가능한 퓨샷러닝(few-shot learning)이 적용됐다"고 말했다.
KT는 우선 독서플랫폼인 밀리의 서재에 해당 기술을 활용할 계획이다. 오디오북 콘텐츠의 등장인물에 AI 보이스 적용을 확대하는 식이다. KT는 향후 콘텐츠 AI를 만들어 사업을 전개하는 한편 음성합성 API를 유료 상품화해 제공한다는 방침이다.
SK텔레콤(017670)은 AI기반 기업대상 음성 안내 플랫폼 '누구 비즈콜'을 출시했으며,
LG유플러스(032640)는 소상공인 특화 AI콜봇 서비스 'AI 가게 메니저'를 출시할 계획이다. CJ올리브네트웍스는 최근 갤러리BK와 함께 보이스 클로닝 기술을 이용한 AI '보이스도슨트' 서비스 제공에 나선다고 밝혔다.
음성분석 기술 활용은 해외에선 이미 주요 트렌드로 자리 잡고 있다. 글로벌 빅테크 기업들의 경우 음성분석 기술 고도화를 위해 벤처기업 인수나 기술 투자에 일찌감치 나선 상황이다. 마이크로소프트는 지난해 의료분야에서 선도적인 AI 음성인식기술 기업 '뉘앙스'를 인수, 헬스케어 부문의 점유율 확대에 나선다는 방침을 세웠다. 일찍이 딥러닝 스타트업과 음성인식기술을 인수한 애플과 구글은 자동차 인포테인먼트 시스템인 '카플레이'와 '안드로이드 오토'에서 자체 개발한 고도화된 음성인식 기능을 활용한 서비스를 제공하고 있다. 기존의 제품 검색이나 서비스 예약 등을 넘어 계속해서 커넥티드카, 보이스 커머스 등 음성분석 기술이 적용될 수 있는 새로운 분야를 발굴, 비즈니스화한다는 게 이들의 공통된 전략이다.
어린이 모델들이 KT AI 보이스 스튜디오를 활용해 콘텐츠를 제작하고 있다. (사진=KT)
홍연 기자 hongyeon1224@etomato.com