[뉴스토마토 김동훈기자] #국민건강보험공단은 모든 국민의 건강보험자격과 보험료 자료, 병·의원 이용내용, 건강검진 결과, 희귀난치성 질환, 암 등록정보 등 1조3034억건의 빅데이터를 보유하고 있다. 이를 활용해 개인별·인구집단별 다양한 맞춤형 건강관리 서비스를 제공할 예정이다.
#지난해 8월부터 운전면허 적성검사 시 국가건강검진(시력·청력) 정보를 활용할 수 있어별도의 신체검사나 자료 제출없이 운전면허 신규취득과 갱신이 가능하다.
정부 3.0 구현을 위한 핵심 요소인 빅데이터를 정부부처와 공공기관이 활용한 사례다.
이같은 빅데이터를 보건·복지 분야에서 활용하기에 앞서 개인정보보호 등의 문제를 해결해야 한다는 지적이 나왔다.
정부 3.0이란 공공정보를 개방·공유하고, 부처 간 칸막이를 없애 소통·협력함으로써 국민 맞춤형 서비스를 제공하는 새로운 정부 운영 패러다임이다. 이를 위해 대량 데이터를 분석하는 빅데이터 기술이 요구되고 있다.
오미애 한국보건사회연구원 사회통계연구실 부연구위원은 11일 보사연이 발간한 이슈앤포커스에서 "빅데이터의 활용 가치를 논하면서 개인정보보호 문제를 제기하는 것은 데이터를 수집하는 공공기관과 민간기업이 어떤 경로를 통해 어떤 데이터를 수집하며, 어떻게 관리하고 이용하는지에 대한 정보 제공자의 불안감 때문"이라고 말했다.
이어 "최근 사회적 이슈가 되고 있는 주요 신용카드사의 개인정보 유출 사건은 이러한 측면에서 빅데이터 구축과 활용을 제약하고, 정부 3.0의 구현을 어렵게 만드는 한계로 작용할 수 있다"고 지적했다.
다만 "그럼에도 불구하고 빅데이터 수집과 관리·활용에 관한 투명성 제고를 바탕으로 개인정보가 포함된 데이터에 대한 충분한 수준의 익명화를 거쳐 분석에 활용한다면 한계점을 해결할 수 있을 것"이라고 설명했다.
또 과적합(overfitting) 문제와 차원의 저주(curse of dimensionality)를 주의해야 한다고 강조했다.
과적합 문제는 빅데이터가 방대한 자료를 세분화해 분석할 수 있어 세밀한 정책적 판단을 가능케 하지만, 지나치게 정교한 분석을 할 경우 예측력이 오히려 떨어질 가능성을 뜻한다. 차원의 저주는 분석의 정확도를 유지하기 위해서 변수의 수를 증가시킬 때마다 필요한 데이터의 수가 기하급수적으로 증가하는 것을 의미한다.
오 연구원은 "빅데이터를 분석할 경우 현재의 자료가 미래를 가장 잘 설명할 수 있다는 통계학의 기본 가정이 성립되는지 살펴봐야 한다"며 "예컨대 현재 빅데이터가 생산·축적되는 모집단 자체가 변화될 수 있다는 사실에 유의해야 한다"고 지적했다.
그는 "변수의 개수가 많아지면 빅데이터라고 할지라도 감당하기 어려운 수준일 수 있으므로 이러한 저주를 피하기 위한 통계적 기법을 고려해야 할 것"이라고 덧붙였다.
(자료=한국보건사회연구원)