전국 사투리까지 담은 5억개 AI 학습용 데이터 개방

과기정통부, 디지털 뉴딜 정책 일환으로 'AI 학습용 데이터댐' 구축
한국어 음성·헬스케어·자율주행 등 8대 분야 170종 데이터 담아
민감·개인정보 유출 막기 위해 '시나리오 베이스'로 제작
18일부터 순차 공개…'AI 허브'에서 누구나 내려받을 수 있어

입력 : 2021-06-18 오후 5:22:28
[뉴스토마토 배한님 기자] 정부가 구축한 약 5억건의 인공지능(AI) 데이터가 민간에 개방된다. 학습용 데이터를 확보하지 못해 서비스 고도화 등 사업에 어려움을 겪던 국내 AI 기업을 돕기 위한 차원이다. 개인정보 유출 등 문제를 막기 위해 개방되는 데이터의 대부분은 직접 제작한 것으로 정했다. 
 
 
과학기술정보통신부(과기정통부)와 한국지능정보사회진흥원(NIA)은 18일 AI 학습용 데이터 170종 4억8000만건을 AI 허브(aihub.or.kr)에 순차적으로 개방한다고 밝혔다. 본인확인만 하면 누구나 AI 학습용 데이터를 다운받을 수 있다. 개인정보보호 문제가 없는 60종의 데이터를 이날 우선 공개하고, 헬스케어 등 민감 정보가 포함될 우려가 있는 데이터 59종은 검증이 끝나는 대로 오는 30일까지 AI 허브에 업데이트할 예정이다. 
 
이번에 공개하는 데이터는 △음성·자연어 39종 △헬스케어 32종 △자율주행 21종 △비전 15종 △국토환경 12종 △농축수산 14종 △안전 19종 △기타 18종으로, 8대 분야 170종에 달한다. 지난 2020년 한 해 동안 AI·데이터 전문 기업과 대학, 병원 등 674개 기업 및 기관이 데이터 구축에 참여했다. 이번에 구축한 데이터는 크라우드 소싱 방식 등을 도입해 역대 최대 규모에 이른다고 과기정통부는 설명했다. 
 
과기정통부는 지난 2017년부터 AI 허브를 만들고 학습용 데이터를 구축·개방했다. 지금까지 총 21종의 인공지능 학습용 데이터가 공개됐으며, 이용자도 2019년 4439명에서 2020년 1만3092명으로 확대됐다. 
 
데이터 수집·가공은 이루다 사태의 경우와 같은 개인정보 문제를 없애기 위해 시나리오 베이스로 제작됐다. 예를 들면 한국어 말뭉치(텍스트를 컴퓨터가 읽을 수 있는 형태로 된 언어 자료)나 CCTV 영상 등의 데이터는 시나리오를 만든 다음 연기자를 이용해 재현하는 방식으로 모았다. 
 
방언 데이터는 솔트룩스나 경북대학교 산학협력단 등이 강원도·경상도·전라도 등 각 지역 농어촌 주민을 찾아가 원하는 대화 내용 녹음을 부탁하는 등의 방식으로 수집했다. 자율주행과 헬스케어의 경우 직접 제작이 어려워 개인정보 수집·이용 동의를 받은 데이터를 활용했다. 
 
특히 민감 정보를 다수 포함하고 있는 헬스케어 데이터의 경우 '안심존'에서만 AI 알고리즘을 학습할 수 있도록 했다. 
 
고윤석 한국지능정보사회진흥원(NIA) 본부장. 사진/배한님 기자
 
실제 데이터가 아닌 시나리오 기반의 데이터기 때문에 정확도가 떨어질 수 있지 않냐는 지적에 고윤석 NIA 본부장은 "충분히 품질 검증을 통해 활용성을 높였다"며 "실제 네이버 클로바콜이나 마인즈랩, ETRI 등에서 (저희 데이터로) 학습한 이후 성능이 좋아지는 것을 검증했다"고 자신했다. 
 
직접 제작 방식으로 데이터를 확보하면 공급이 수요를 따라가지 못하지 않겠냐는 질문에 고 본부장은 "생산이 수요를 못 따라는 것은 너무 당연한 부분이며, 정부가 모든 인공지능 학습용 데이터를 생산할 수는 없다"고 설명했다. 
 
고 본부장은 이어 "데이터댐의 주안점은 가장 핵심적인 데이터, 공통적인 데이터를 만드는 것"이라며 "업계는 자연어 음성·자율주행 및 농업 영상·헬스케어 등 수요가 많은 데이터를 정부가 공통으로 모아주기를 손꼽아 기다렸다"고 강조했다. 
 
인공지능 학습용 데이터 이용자 참여형 품질개선체계(안). 자료/과학기술정보통신부
 
정부는 '품질자문위'를 통해 AI 허브 내 데이터 품질을 전문적으로 관리한다는 방침이다. 지난해 9월부터 운영된 품질자문위에 참여한 8대 분야 산·학·연 전문가 80명이 데이터 품질과 활용성을 검증한다. 품질자문위는 △데이터 구축계획 타당성 △구축 단계별 품질절차 준수 △원시 데이터 및 라벨링 데이터의 품질 등을 확인한다. 아울러 이번에 개방되는 데이터 품질 제고를 위해 9월 말까지 3개월간 '참여형 데이터 집중 개선기간'도 운영할 계획이다. 
 
임혜숙 과학기술정보통신부 장관이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식' 에 참석해 격려사를 하고 있다. 사진/과학기술정보통신부
 
임혜숙 과기정통부 장관은 이날 서울 강서구 LG사이언스파크에서 열린 '인공지능(AI) 데이터 활용협의회' 출범식에 참석해 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용되어 혁신의 열매를 맺을 수 있기를 기대한다"며 "정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다"고 전했다.
 
배한님 기자 bhn@etomato.com
 
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
배한님 기자