[뉴스토마토 서경주 객원기자] 네이처, 사이언스, 미국과학아카데회보(PNAS) 등 세계적인 학술지들은 이른바 '동료 검토(peer-review)'라는 방식으로 게재할 논문을 선정합니다. 논문이 출판되기 전에 해당 분야의 전문가(peer)들이 연구의 정확성, 타당성, 독창성 등을 검토하는 과정을 거칩니다. 과학적 연구의 충실성을 보장하고 오류나 부정확한 주장이 학술 문헌에 포함되는 것을 방지하기 위해서입니다.
연구자가 논문을 저널에 제출하면, 편집자가 해당 논문을 검토한 후 적절한 동료들(peers)을 선정하고 이들은 논문의 연구 방법, 데이터 해석, 결론의 타당성 등을 평가합니다. 심사자들은 논문을 그대로 게재할지, 수정이 필요한지, 거절할지를 결정하고, 저자에게 피드백을 제공합니다.
학술지의 권위는 이 과정이 얼마나 철저하고 공정하게 이뤄지느냐에 달려 있다고 해도 과언이 아닙니다. 그래서 이런 학술지들을 흔히 '피어리뷰 저널(peer-reviewed journal)'이라고 부릅니다. 그런데 이 과정에서 가장 어려운 일은 논문을 검토할 만한 실력 있고 중립적인 피어를 선정하는 일입니다. 새로운 첨단 분야는 더욱 그렇습니다. 그런데 이제 이런 피어리뷰 저널에 실리는 논문의 오류를 AI 에이전트가 잡아내는 시대가 열리고 있습니다.
지난해 10월 1일 비영리 기관인 톡식-프리 퓨처(Toxic-Free Future)의 메건 류 연구원과 암스테르담 프라이어대학(Vrije Universiteit)의 시코 브랜스마 교수는 '키모스피어(Chemosphere)'에 “전자폐기물에서 생활공간까지: 가정용품을 오염시키는 난연제로 인해 플라스틱 재활용에 대한 우려가 커졌다”라는 논문을 발표했습니다. 논문의 주요 내용은 검은색 플라스틱으로 된 주방용품 203종을 테스트한 결과, 85%에서 발암성 및 호르몬 교란을 일으킬 수 있는 유독성 난연제가 기준 이상으로 검출됐다는 것입니다. 그러나 연구팀은 논문 발표 이후, 수학적 오류로 인해 위험이 과장됐음을 인정하고 실제 노출 수준이 안전 기준보다 훨씬 낮다고 정정했습니다. 간단한 수학적 오류를 간과한 탓에 많은 사람들이 검은색 플라스틱으로 된 주방용품을 버리고 나무나 스테인리스제품으로 바꿨습니다.
이 사건은 과학 논문에서 오류를 찾기 위해 AI를 활용하는 두 개의 프로젝트에 자극제가 되었습니다. ‘블랙 스패출러 프로젝트(Black Spatula Project)’는 대형 언어 모델(LLM)을 활용하여 과학 논문에서 오류를 식별하는 가능성을 탐구하는 오픈소스 AI로 지금까지 약 500개의 논문을 분석하여 오류를 찾아냈습니다. 그러나 아직 발견된 논문의 오류를 공개적으로 발표하진 않고 있습니다.
블랙 스패출러 프로젝트는 깃허브(Github)를 기반으로 왓츠앱(WhatsApp)과 디스코드(Discord) 등 소셜 플랫폼을 이용해 자발적인 참가자들과 협업을 통해 논문 오류를 찾아내고 있습니다. 이 프로젝트는 특별한 기구나 조직이 없으며 콜롬비아 카르타헤나에 사는 AI 연구원 호아킨 굴로소(Joaquin Gulloso)가 코디네이터 역할을 하고 있습니다.
블랙 스패출러 프로젝트의 경우, AI가 각 논문을 분석하는 비용은 대략 15센트에서 몇 달러까지 다양합니다. 비용은 논문의 길이와 사용하는 명령어 수에 따라 달라집니다. 사용자나 연구자는 이 비용을 내고 AI가 논문을 분석하게 합니다. 그다음에 전문가들이 오류를 검토하는 과정을 거칩니다. 전체 비용은 정확히 공개되지 않았지만, AI 분석 자체는 저렴한 비용으로 제공됩니다.
AI를 이용하여 학술 논문의 오류를 찾아내는 또 다른 플랫폼은 예스노에러(YesNoError)입니다. 예스노에러의 AI 시스템은 논문에서 표와 이미지 등의 정보를 추출한 후, 대형 언어 모델(LLM)을 활용하여 사실 오류, 계산 오류, 방법론적 오류, 참고 문헌 오류 등을 감지합니다. 이러한 자동화된 검토를 통해 연구자들이 논문 제출 전에 오류를 식별하고 수정할 수 있도록 지원합니다. 학술 저널도 출판 전에 논문을 검토하여 오류나 부정행위를 방지할 수 있습니다.
예스노에러는 자체 암호화폐인 YNE 토큰으로 운영되고 있습니다. 3월 10일 현재 이 토큰의 가격은 0.0124달러에 최대 공급량은 약 10억 개입니다. 검토 의뢰자들이 지불해야 하는 구체적인 비용은 공개되어 있지 않지만, 논문에 따라 상당한 차이가 나는 것으로 추정됩니다. 논문의 오류 검토를 의뢰한 사람들은 자신의 YNE 암호화폐 지갑을 등록해야 합니다.
예스노에러 팀은 초기 10,000편의 논문에서 발견된 약 100개의 수학적 오류 중 검토 오류(false positive) 비율을 정량화했으며, 응답한 저자들의 90% 중 단 한 명을 제외하고는 AI가 검출한 오류가 실제 오류임을 인정했습니다. 향후 예스노에러는 리서치허브(ResearchHub)와 협력하여 박사 학위 과학자들에게 암호화폐로 보상을 지급하며 동료 검토(peer review)도 수행할 계획입니다. 예스노에러는 과학 연구의 무결성을 높이기 위해 AI와 블록체인 기술을 결합하여 연구자들과 학술 저널이 더 정확하고 신뢰할 수 있는 연구 결과를 제공한다는 목표를 세우고 있습니다.
두 프로젝트는 연구자들이 실수나 연구 부정이 학술 문헌에 포함되는 것을 방지하기 위해 저널에 논문을 제출하기 전에, 그리고 저널이 논문을 출판하기 전에 그들의 도구를 사용하도록 권장하고 있습니다. 그러나 AI가 논문의 오류를 찾아내는 데는 위험 요소도 있습니다. 일단 논문에 오류가 있다고 지적을 받은 사람들은 나중에 AI의 검토 오류였다고 밝혀져도 평판에 타격을 입기 때문입니다. 또한, 동료 검토 과정에서는 사소한 문제로 넘어갈 수 있는 오탈자나 문장의 오류 같은 사안들로 소란을 일으킬 우려도 있습니다. 다만 초기 검토에서 AI가 오류를 찾아내고 추가 검토가 필요한 논문을 선별하는 데는 상당한 역할을 할 것으로 보입니다.
세계적인 과학 저널들의 표지 (사진=Medan Area University, Indonesia)
서경주 객원기자 kjsuh57@naver.com