한동형 그래파이 CTO, 전산학부 배정민 박사과정(왼쪽), 전산학부 김민수 교수. (사진=KAIST)
[뉴스토마토 임삼진 객원기자] 최근 기후 예측, 금융 거래 분석, 신약 개발, 제조 공정 최적화 등 다양한 산업에서 그래프 신경망(Graph Neural Network, GNN) 기반의 AI 활용이 급증하고 있습니다. GNN은 정점과 간선으로 표현된 복잡한 관계형 데이터를 처리해, 기존 텍스트·이미지 중심 AI가 놓치던 패턴까지 찾아낼 수 있습니다. 하지만 ‘풀 그래프 학습’, 즉 전체 그래프를 한 번에 학습하는 것은 막대한 GPU 메모리와 서버 자원을 필요로 하며, 여러 대의 GPU를 연결하는 환경에서도 데이터 통신 병목과 메모리 부족 문제가 잦았습니다.
KAIST 연구팀의 돌파구, 단일 GPU ‘FlexGNN’
KAIST 전산학부 김민수 교수 연구팀은 이러한 한계를 극복하고, 단 한 대의 GPU 서버로도 대규모 풀 그래프 GNN 모델을 최대 95배 빠르게 학습할 수 있는 세계 최고 속도 그래프 AI 학습 시스템 ‘플렉스GNN(FlexGNN)’을 개발했다고 14일 밝혔습니다. 기존에는 불가능했던 메인 메모리 용량을 초과하는 초대형 데이터셋도 처리 가능하며, 슈퍼컴퓨터급 분석을 개인 서버에서 구현할 수 있는 길이 열렸습니다.
플렉스GNN의 성능 비결은 GPU-메인 메모리-SSD 간 다층 자원 활용 최적화에 있습니다.
▲중간 데이터 관리 전략: 데이터 크기·자원 상황에 따라 유지(Keep), 오프로딩(Offload), 재계산(Recompute) 중 최적의 방식을 선택.
▲적응형 데이터 교환 연산자(X_adapt): GPU 간 혹은 GPU-메모리 간 교환 방식을 상황별로 자동 전환해 병목 최소화.
▲계산·데이터 이동 병렬화: 오프로딩·리로딩을 연산과 최대한 겹쳐 처리 시간을 줄임.
연구진에 따르면 “이 방식은 기존 시스템의 고정적 데이터 처리(X_rigid) 구조를 깨고, 데이터베이스 쿼리 최적화 기법을 학습에 접목한 것”입니다.
플렉스GNN은 단일 GPU 서버에서도 초대형 그래프를 학습 가능하게 함으로써, 기후 모델링, 신소재 탐색, 복잡한 금융 네트워크 분석 등 ‘풀 그래프 AI’의 대중화를 앞당길 전망입니다. 이 연구의 교신저자인 김민수 교수는 “날씨 예측과 신소재 발견 등 복잡한 문제를 해결하는데 풀 그래프 GNN 모델이 활발히 활용되면서 관련 기술의 중요성이 점점 높아지고 있다”라며 “플렉스GNN이 그동안 어려움으로 남아 있던 그래프 AI 모델의 학습 규모와 속도 문제를 획기적으로 해결한 만큼, 다양한 산업 분야에 널리 활용되기를 기대한다”고 밝혔습니다.
이번 연구는 전산학부 배정민 박사과정이 제1저자, (주)그래파이의 한동형 CTO가 제2저자로 참여했으며, 세계적 데이터마이닝 학회 ACM KDD에서 지난 8월 5일 발표됐습니다.
그림 (a): 기존 전체 그래프 GNN 학습 시스템의 일반적인 실행 흐름을 나타낸다. 학습 중 생성되는 중간 데이터는 모두 GPU 메모리에 유지되며, 데이터 이동이나 메모리 최적화 없이 순차적으로 연산이 수행된다. 그림 (b): 플렉스GNN이 생성한 최적화된 학습 실행 계획에 따른 실행 흐름의 예시를 나타낸다. (사진=KAIST)
임삼진 객원기자 isj2020@daum.net