OECD, <건강 분야의 인공지능> 표지. ‘거대한 잠재력, 거대한 위험’이라는 표현이 인상적이다. (사진:=OECD 자료 화면 캡처)
[뉴스토마토 임삼진 객원기자] “AI가 만들어낸 합성 데이터는 실제 환자 정보를 포함하지 않으므로 인간 대상 연구로 간주할 필요가 없다.” 미국 워싱턴대 의대 필립 페인(Philip Payne) 부총장은 네이처(Nature)와의 인터뷰에서 이렇게 밝혔습니다. 워싱턴대는 2020년부터 대규모로 AI 합성 의료 데이터를 연구에 활용해왔으며, 미국의 연방 연구 윤리 기준인 ‘커먼룰(Common Rule, 1991년 제정)’도 합성 데이터는 인간 대상 연구에 포함하지 않는다는 입장입니다.
캐나다 오타와의 아동병원(CHEO)과 오타와 병원, 이탈리아 밀라노의 휴머니타스 연구병원(IRCCS Humanitas)도 비슷한 입장이라고 9월10일 네이처 뉴스(Nature News)는 밝혔습니다. CHEO 연구윤리위원회 위원장 세실 벤시몽(Cécile Bensimon)은 “법률 검토 결과 AI가 만든 합성 데이터는 개인 건강정보로 보기 어렵다는 결론을 내렸다”고 말합니다. 이탈리아 후마니타스(Humanitas) 병원 AI센터 사베리오 다미코(Saverio D’Amico)는 “AI 분석 동의를 받은 환자 자료에서 생성된 합성 데이터는 별도 윤리 심사가 필요 없다”고 설명했습니다.
이처럼 합성 데이터는 실제 환자 데이터를 통계적 특성만 유지한 채 새로 생성하기 때문에 신원 추적이 불가능하고, 병원·연구소 간 공유가 쉽고, 연구 속도를 높일 수 있다는 장점이 있습니다. CHEO의 의료 AI 연구자 칼레드 엘 에맘(Khaled El Emam)은 “환자 프라이버시 보호와 연구 속도 향상, 다기관 협력을 동시에 달성할 수 있다”고 강조했습니다.
재식별 가능성…윤리적 회색지대
하지만 모두가 이런 윤리 심사의 면제를 반기는 것은 아닙니다. 윤리와 법의 공백을 경고하는 전문가들의 목소리도 적지 않습니다. 2024년 7월 <사이언스 정책 포럼(Science Policy Forum)>에 게재된 논문은 “시기적절하고 관련성 있는 데이터 부족과 같은 중요한 데이터 격차를 해소할 수 있어 공중보건 연구 및 감시를 위한 새로운 기회를 창출할 수 있다”고 긍정적인 면을 지적하면서도 “합성 데이터는 개인 건강정보(Protected Health Information)를 제거하더라도 잠재적 링크드 데이터(linked data)와의 결합으로 신원을 추정할 위험을 완전히 배제할 수 없다”고 밝힌 바 있습니다.
영국 케임브리지대 PHG재단의 콜린 미첼(Colin Mitchell)은 Nature에 “식별 가능성과 익명화의 경계는 기술 발전과 함께 끊임없이 변한다”라며 “유전체 연구처럼 수십 년간 어떤 데이터가 개인을 식별할 수 있는지 합의하지 못한 분야가 여전히 많다”라고 지적했습니다. AI가 고도화되면 합성 데이터도 역추적·재식별 위험에서 자유로울 수 없다는 의미입니다. 영국 의약품·건강제품규제청(MHRA) 데이터링크 책임자 푸자 마일스(Puja Myles)는 “합성 데이터라는 용어가 모호하게 쓰일 경우, 연구자가 사실상 환자 동의나 심의를 피하는 도구로 악용될 수 있다”고 경고했습니다. 합성 데이터 생성 단계에서 원본 환자 정보에 접근하는 과정은 여전히 윤리 심사와 동의가 필요하지만, ‘저위험’이라는 이유로 간소화되거나 면제되는 사례가 늘고 있음을 지적한 것입니다.
국가별 규제 차이, 국제 규범 표준화 시급
미국은 커먼룰에 따라 합성 데이터는 인간 대상 연구에서 제외가 가능합니다. 캐나다는 개인정보보호법(PHIPA)에서 비개인 정보로 간주될 경우 환자 동의가 필요 없습니다. 이탈리아는 보건부가 지정한 고급 연구병원에 자율성을 부여하고 있습니다.
반면에 영국은 합성 데이터도 윤리·동의·데이터 보호를 엄격히 요구합니다. 이런 불일치는 국제 공동연구나 데이터 공유를 어렵게 만들고 있습니다. 미첼은 “연구·데이터 보호를 관할하는 당국들이 모여 합성 데이터의 법적 지위를 통일해야 한다”고 제언합니다.
EU는 AI법(AI Act)을 통해 의료·생명과학 분야 AI 활용 시 투명성·책임성·데이터 거버넌스를 강조하고 있고, OECD 역시 합성 데이터의 재식별 위험을 지속적으로 평가할 것을 권고합니다. OECD는 지난해 12월 발표한 ‘건강 분야 인공지능(AI in Health)’ 가이드라인에서 “합성 데이터는 개인정보를 직접 포함하지 않더라도 데이터 생성 단계에서 원본 데이터 접근이 필요하며, 이 과정은 여전히 인간 대상 연구 규정의 적용을 받는다. 각 단계별 동의와 윤리 심의가 필수적이다”라고 밝혔습니다.
합성 의료 데이터는 희귀질환 연구와 다국가 협력 등에서 연구 혁신을 이끌 수 있는 강력한 도구임에 분명합니다. 그러나 “합성이라는 이름이 곧바로 윤리 심사 면제를 의미해선 안 된다”는 전문가들의 목소리에도 근거가 있습니다.
네이처는 이를 “AI와 인간의 공존을 위한 디지털 생명윤리의 새로운 시험대”라고 표현했습니다. “합성 데이터는 유망한 도구이지만, 유망함이 무해함을 증명하지는 않습니다. 데이터 재구성 기술의 진화하는 힘에 걸맞은 감독이 필요하다”라는 하버드대 생명윤리학자 바바라 에번스(Barbara Evans)의 지적은 울림이 있습니다. 합성 데이터에 대한 투명한 책임성과 국제적 규범 협력이 필요합니다.
DOI: 10.1038/d41586-025-02911-1
임삼진 객원기자 isj2020@daum.net