(헬스&사이언스)국내 연구진, 거대언어모델 AI 학습 최적화 시뮬레이션 개발

KAIST와 삼성전자 종합기술원, LLM 모델 학습비용 절감할 수 있는 vTrain 개발
1500개 이상의 학습 시간 측정데이터 포함해 시뮬레이터 오픈소스로 공개
GPU 클러스터 비롯해 AI 시스템 운영 효율성 향상 전망

입력 : 2025-03-17 오전 9:38:24
이번에 vTrain을 개발한 KAIST 전기 및 전자공학부 유민수 교수, 방제현 박사과정, 최유정 박사(사진=KAIST)
 
[뉴스토마토 서경주 객원기자] AI 모델 학습(training)은 인공지능이 데이터를 기반으로 패턴을 학습하고, 새로운 입력에 대해 예측하거나 판단을 내릴 수 있도록 하는 과정입니다. 이 과정은 머신러닝(ML)과 딥러닝(DL)에서 핵심적인 역할을 하며, 특히 거대언어모델(Large Language Model, LLM) 같은 AI 모델은 대량의 데이터를 학습하여 사람처럼 자연스럽게 언어를 이해하고 생성할 수 있습니다.
 
그런데 최근 챗GPT(ChatGPT), 딥시크(DeepSeek)와 같은 거대언어모델이 다양한 산업 분야에 활용되면서, 이를 학습하기 위한 대규모 그래픽 처리장치(GPU) 클러스터의 운영과 최적화가 중요한 문제로 떠오르고 있습니다. 이러한 LLM은 수천에서 수만개의 GPU를 활용하여 학습되며, 학습 과정을 어떻게 병렬시키고 분산시키느냐에 따라 학습 시간과 비용이 크게 달라집니다. 하지만 가능한 분산 학습 전략에는 경우의 수가 매우 많아 기업들은 일부 검증된 소수 전략만을 쓰고 있어서 GPU 클러스터 활용이 비효율적이고 비용이 증가하고 있습니다. 오픈(Open) AI의 GPT-4의 경우, 모델을 학습하는 데 소모되는 비용이 약 1400억원에 육박하는 것으로 추산됩니다. 이런 현실에도 불구하고, 최적의 학습 전략을 찾기 위한 정확하고 효율적인 시뮬레이션 기술은 미흡한 실정이었습니다.
 
그런데 국내 연구진이 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 최적의 병렬화 구성을 도출하도록 하는 기술을 개발했습니다. KAIST 전기 및 전자공학부 유민수 교수 연구팀은 삼성전자 종합기술원과 함께 LLM의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크, vTrain을 개발했다고 최근 밝혔습니다.
 
vTrain은 모델이 실행되는 동안 성능을 분석하고 최적화할 수 있도록 GPU, 메모리 등 리소스 사용량을 측정하여 전체 학습 시간을 예측하는 프로파일링 과정에서 병렬화 기법에 따른 통신 패턴을 효과적으로 표현하는 실행 그래프 생성 방법과 연산 선별 기법(Computation Pruning)을 보여주었습니다.
 
거대언어모델을 AI를 이용한 휴머노이드의 상상도(사진=KAIST)
 
연구팀은 실제 다중 GPU 환경에서 다양한 LLM 학습 시간 실측값과 vTrain의 예측값을 비교한 결과, 단일 노드에서 평균 절대 백분율 오차(MAPE) 8.37%, 다중 노드에서 14.73%의 정확도로 학습 시간을 예측할 수 있음을 검증했습니다. 연구팀은 또 엔비디아와 마이크로소프트가 공동으로 개발한 LLM 메가트론-튜링 자연어 생성 모델(MT-NLG)의 기존 학습 전략과 vTrain을 이용한 최적화 학습 전략을 비교했습니다. 그 결과, 기존 경험적 방식 대비 GPU 사용률을 10% 이상 향상하고 학습 비용을 5% 이상 절감할 수 있는 것으로 확인되었습니다.
 
이 외에도 여러 사용자가 동시에 공유할 수 있도록 설계된 GPU 기반 연산 클러스터 운영 최적화, 그리고 주어진 컴퓨팅 자원 내에서 최적의 LLM 크기와 학습 토큰(Training Token) 수를 결정하는 문제에서도 vTrain이 활용될 수 있음을 보여주었습니다.
 
연구팀은 vTrain 프레임워크와 1500개 이상의 실제 학습 시간 측정 데이터를 오픈소스로 공개하여 AI 연구자와 기업이 이를 자유롭게 활용할 수 있도록 했습니다(https://github.com/VIA-Research/vTrain).
유민수 교수는 “vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 학습 전략을 탐색하였으며 오픈소스를 공개하여 기업들은 거대 인공지능 모델 학습 비용을 효율적으로 절감할 것”이라고 연구의 의미를 설명했습니다.
 
현재 LLM 모델 학습에서 사용되는 병렬화 전략은 경험적 방식에 치중되어 있어, 최적 전략을 찾는 체계적인 분석이 필요한 상황입니다. 이번에 KAIST가 개발한 vTrain은 다양한 병렬화 기법을 정량적으로 평가하고 학습 시간을 예측할 수 있는 기능을 제공함으로써 GPU 자원을 최대한 효율적으로 활용하고 AI 시스템 운영의 효율성을 한층 높일 수 있을 것으로 전망됩니다.
 
서경주 객원기자 kjsuh57@naver.com
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
서경주 기자
SNS 계정 : 메일
관련기사