"장문의 음성도 텍스트로 뚝딱…발음·언어 통합 학습한 AI 덕분"

'네이버 음성인식 AI 엔진 NEST' 개발 한익상 리더…"방대한 뉴스 데이터 학습"

입력 : 2020-04-22 오후 2:38:25
[뉴스토마토 박현준 기자] 녹취한 음성을 텍스트로 정리해 읽어보고 싶을 때가 있다. 기자 입장에선 현장에서 바쁘게 취재하며 음성을 녹취한 경우가 그렇다. 취재원의 멘트가 무엇인지 확실히 알아야 기사에도 정확한 내용을 쓸 수 있다. 이밖에도 음성을 텍스트로 읽어내고자 하는 수요는 주위 곳곳에서 쉽게 확인할 수 있다. 영상이 대세인 세상에서 주위 환경이 여의치 않을 때 소리 없이 영상을 눈으로만 확인하려는 경우가 대표적이다. 그 때문인지 인터뷰이의 음성과 자막이 함께 나오는 방송 뉴스, 음성과 함께 자막을 대거 제공하는 유튜브 채널들이 부쩍 많이 눈에 띈다.
 
이처럼 음성을 정확한 텍스트로 변환하고자 하는 수요를 충족시키고자 네이버가 개발한 음성인식 인공지능(AI) 엔진이 'NEST'다. NEST는 뉴스·통화·미디어 음성 파일을 텍스트로 변환하는 데 최적화됐다. NEST의 개발을 주도한 한익상 네이버 서치&클로바 CIC(사내독립기업) 클로바AI의 스피치팀 책임 리더로부터 서면을 통해 개발 과정과 향후 계획에 대해 들었다. 한 리더는 삼성전자에 이어 네이버에 몸 담으며 음성인식만 연구한 이 분야 전문가다. 
 
(왼쪽부터)네이버 서치앤클로바 CIC 클로바AI의 이찬규 리더, 한익상 책임리더, 김순익 리더. 사진/네이버
 
음향·언어모델 통합 학습하는 엔드투엔드 방식 적용
 
네이버는 지난 2013년 음성검색에 딥러닝(심화학습)을 활용한 AI 기술을 적용했다. 이후 음성검색을 고도화하는 과정에서 딥러닝의 진화 속도가 너무 빨랐다. 때문에 몇 단계를 건너뛰고 최근 주목받고 있는 엔드투엔드(end-to-end) 기술을 활용하기로 결정을 내렸다. 약 1년의 개발 기간을 거쳐 최근 엔드투엔드 기술이 적용된 NEST가 탄생했다. 
 
엔드투엔드는 음향 모델(AM)과 언어 모델(LM)을 따로 학습하지 않고 통합해 학습하는 방식이다. AM과 LM을 별도로 학습하는 기존 음성정보의 텍스트 변환 기술(STT)과는 차별화된다. AM은 발음 정보를, LM은 어휘들의 변형 및 관계를 다루는데, 기존 STT에서 AM은 음성과 정답 데이터가 잘 정리된 데이터가 필요하고 LM은 복잡한 표현을 미리 학습해야 좋은 결과를 낼 수 있는 부담이 따랐다. 이에 한 리더는 음성 정보와 정답 텍스트 정보를 한꺼번에 학습하는 엔드투엔드 방식을 택했다. 데이터를 정제하는 부담이 줄었고 AI 엔진이 학습해야 하는 절대적인 양도 감소했다. 구어체 표현이나 비문에 일일이 미리 대응해두지 않아도 원래 음성과 유사한 인식 결과를 낼 수 있게 됐다. 기자가 클로바 스피치 홈페이지에서 주변 잡음이 있는 음성 녹음 파일을 올려본 결과 NEST는 원래의 음성과 거의 비슷하게 텍스트로 구현해냈다. 중간 중간에 원본과 다른 부분도 있었지만 문장 전체의 뜻을 거스를 정도는 아니었다. 
 
NEST 개발에는 네이버가 보유한 방대한 데이터도 한 몫했다. NEST 엔진은 수 분 혹은 수 시간 단위의 말 덩어리도 학습할 수 있도록 구현됐다. 수 초 단위의 짧은 형태의 음성이 있어야 원활하게 학습할 수 있는 기존 엔진과 다른 점이다. 네이버가 보유한 방대한 뉴스 데이터가 NEST 엔진의 요긴한 학습 데이터로 쓰인 셈이다. 
 
네이버 클로바 스피치 홈페이지에서 NEST를 체험하는 모습. 사진/홈페이지 캡처
 
"NEST로 '고객센터 통화 분석·동영상 자막 생성' 더 정확해질 것"
 
NEST는 이미 현장에서 활용되고 있다. 네이버 사옥이 위치한 성남시는 NEST가 적용된 '클로바 케어콜' 서비스를 코로나19의 능동 감시자를 확인하는 용도로 쓰고 있다. 기존에는 보건소 직원들이 일대일로 능동 감시자들에게 전화를 걸어야 했다. 하지만 클로바 케어콜로 전체 대상자와 한 번에 통화가 가능해져 업무 효율성이 크게 개선됐다. 결과적으로 선별 진료와 역학 조사 등에 인력을 집중적으로 배치할 수 있게 됐다. 한 리더는 NEST가 향후 녹취록·회의록 작성, 동영상 자막 생성, 고객센터 통화 분석 등에 요긴하게 활용될 것으로 전망했다. NEST는 긴 음성도 기존의 엔진보다 더 정확하게 텍스트로 변환할 수 있기 때문이다.
 
그는 AI의 고도화를 위해 필요한 것으로 양질의 데이터와 우수한 인력을 꼽았다. NEST가 기존의 뉴스·미디어 외에 더 많은 분야에서도 활용되려면 상당량의 학습용 데이터가 필요하다. 최신 논문이나 기술들을 빠르게 습득하고 이를 자유롭게 적용할수 있는 능력을 갖춘 인력도 필수적이다. 한 리더와 개발진은 현재 한국어로 서비스되고 있는 NEST를 하반기 일본어를 시작으로 영어, 중국어 등에 이르기까지 제공 언어를 확대할 계획이다. 
 
박현준 기자 pama8@etomato.com
 
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
박현준 기자