전 세계의 자연사 컬렉션은 진화, 생물다양성, 기후 변화, 건강에 대한 질문에 답하는 데 도움이 될 수 있다. 스미소니언 자연사 박물관의 표본실 모습 (사진=스미소니언 자연사 박물관)
[뉴스토마토 서경주 객원기자] 영국 자연사박물관에 따르면, 세계 주요 자연사 박물관·표본관 73곳(28개국)이 보유한 표본은 약 11억개 이상입니다. 옥스퍼드 대학 출판사에서 발행하는 학술지 <바이오사이언스(BioScience)>에 게재된 한 리뷰 논문에서는 “수천 개의 자연사 컬렉션이 전 세계적으로 20억개 이상의 표본을 보유하고 있다”고 언급하고 있습니다.
자연사 수집물(Natural History Collection, NHC)은 박물관이나 식물표본관에 소장된 유기체 전체 혹은 일부 표본뿐 아니라, 건조·알코올·냉동 방식으로 보존된 다양한 자료를 망라합니다. 현장 노트, 조직 표본, 기생충, 음성 및 영상 기록 등도 여기에 속하며, 동물원·수족관·식물원에서 보관되는 살아있는 표본, 종자 은행, 균류·조직·세포 배양 은행 역시 NHC의 한 유형입니다.
이러한 표본들은 지구 생명의 역사와 환경 변화에 따른 생물다양성 변화를 이해하는 데 필수적입니다. 각 표본에는 생물의 이름, 채집 장소와 시점 등 메타데이터(metadata)가 포함되어 있어, 단순한 기록을 넘어 과학적 분석의 기초 자료가 됩니다.
흩어진 데이터를 연결하는 새로운 시도
미국 생물과학연구소(AIBS) 커뮤니티 프로그램 디렉터 죠츠나 판데이(Jyotsna Pandey) 박사와 오클라호마 주립대학 생물학과 데이비드 쿤켈(David?M.?Kunkel) 교수 등이 참여한 연구진은 최근 바이오사이언스(BioScience)에 발표한 논문에서, 전 세계에 흩어져 있는 생물·환경 데이터를 통합하여 새로운 연구 인프라로 전환하는 청사진을 제시했습니다.
지금까지 전 세계에서 이루어진 생물다양성 연구, 생태환경 연구, 기후변화 연구, 감염병 및 보건 환경 연구 등에서 막대한 양의 데이터가 생산되어왔습니다. 미국 내 생물 표본만 해도 10억개 이상으로, 각 표본에는 유전체·형태·환경정보 등과 연결될 데이터가 잠재해 있습니다. 그러나 현실에서는 이런 데이터들이 대부분 고립되어 있습니다. 생물 표본 데이터, 기후 데이터, 수질·지형·지리 정보 등 다양한 데이터가 각 분야에 흩어져 있어서, 서로 연결하거나 함께 분석하기가 쉽지 않습니다.
연구진은 복잡한 과학적·사회적 과제를 해결하려면 다원적 데이터, 학제 간 전문성, 다양한 관점의 협력이 필요하다고 진단하고, ‘생물·환경 데이터를 통합할 수 있는 개방적·상호운용(interoperable) 네트워크’ 구축 로드맵을 다섯 가지 주제로 제안했습니다.
다섯 가지 로드맵 주제
첫 번째는 재고 파악과 격차분석(Stocktaking and gap analysis)입니다. 이미 존재하는 데이터의 종류와 저장 위치, 데이터를 모아주는 기관(어그리게이터)을 지도처럼 정리하면, 데이터가 과도하게 중복된 부분과 자료가 부족한 분야를 동시에 확인할 수 있습니다. 이를 통해 앞으로 어떤 데이터를 추가 수집하고, 중복을 조정할지 판단할 수 있습니다.
두 번째는 기술역량 구축(Technological capacity building)입니다. 모든 기관이 사용할 수 있는 공통 메타데이터 템플릿을 만들고, 데이터를 자동으로 주고받는 응용 프로그램 인터페이스(API)와 고유 식별자를 설정해야 합니다. 이렇게 하면 방대한 데이터를 한 체계에서 다룰 수 있으며, 사물인터넷 센서, 영상·음향 자료, 머신러닝 도구 등 새로운 기술도 함께 활용할 수 있습니다.
세 번째는 모범 관행 및 표준(Best practices and standards)입니다. 데이터는 수집에서 재활용까지의 전체 라이프사이클을 거치므로, FAIR 원칙(찾기 쉽게: Findable, 접근 가능하게: Accessible, 상호호환되게: Interoperable, 재사용 할 수 있게: Reusable)과 CARE 원칙(공동의 이익: Collective benefit, 통제권 보장: Authority to control, 책임감 있는 관리: Responsibility, 윤리적 관리: Ethics)을 준수하여 데이터를 올바르게 관리해야 합니다.
네 번째는 교육 및 훈련(Education and training)입니다. 연구자들은 데이터를 찾고 공유하며 재사용할 수 있는 관리 기술과, 메타 데이터 작성, 데이터 보호 및 책임 관리 역량을 갖춰야 합니다. 이를 위해 학부·대학원 과정뿐 아니라 평생교육 프로그램도 마련해야 합니다.
마지막으로 커뮤니티 구축(Community building)입니다. 데이터를 제공하는 기관, 관리하는 연구소, 활용하는 연구자와 정책 담당자가 협력할 수 있어야 합니다. 기술·교육·정책 장벽을 넘어 포용적이고 지속 가능한 공동체를 만드는 것이 목표이며, 이 과정에서 국가 간 기술 격차와 데이터 주권 문제도 함께 고려해야 합니다.
△ 논문링크: https://doi.org/10.1093/biosci/biaf150
박물관에 보관된 표본의 엄청난 다양성은 지구의 생물다양성에 대한 지식을 제공한다. 영국 국립 자연사 박물관의 곤충 표본들. (사진=영국 국립 자연사 박물관)
서경주 객원기자 kjsuh57@naver.com