KAIST 등 연구팀, 초거대형 AI 모델 학습 비용 절감 기술 내놓아
대형 언어 모델은 수만 개의 데이터센터용 GPU를 갖춘 대규모 분산 시스템에서 학습된다. GPT-4의 경우 모델을 학습하는 데 소모되는 비용은 약 1400억원에 이르는 것으로 추산된다.
국내 연구팀이 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 최적의 병렬화 구성을 도출하도록 돕는 기술을 개발했다.
다양한 병렬화 기법에 따른 MT-NLG 학습 시간과 GPU 사용률 변화. [사진=KAIST] |
대형 언어 모델 학습 효율을 높이려면 최적의 분산 학습 전략을 찾는 것이 필수적이다. 가능한 전략의 경우의 수가 방대할 뿐만 아니라 실제 환경에서 각 전략의 성능을 테스트하는 데는 막대한 비용과 시간이 들어간다.
KAIST 연구팀은 vTrain을 개발해 대형 언어 모델의 학습 시간을 정확히 예측하고, 다양한 분산 병렬화 전략을 빠르게 탐색할 수 있도록 했다.
연구팀은 실제 다중 GPU 환경에서 다양한 대형 언어 모델 학습 시간 실측값과 vTrain의 예측값을 비교한 결과 단일 노드에서 평균 절대 오차(MAPE) 8.37%, 다중 노드에서 14.73%의 정확도로 학습 시간을 예측할 수 있음을 검증했다.
연구팀은 삼성전자 삼성종합기술원과 공동연구를 진행해 vTrain 프레임워크와 1500개 이상의 실제 학습 시간 측정 데이터를 오픈소스로 공개해 AI 연구자와 기업이 이를 자유롭게 활용할 수 있도록 했다.
방제현 박사과정이 제 1저자로 참여한 이번 연구 결과(논문명: vTrain: A Simulation Framework for Evaluating Cost-Effective and Compute-Optimal Large Language Model Training)는 컴퓨터 아키텍처 분야의 최우수 학술대회 중 하나인 미국 전기전자공학회(IEEE)·전산공학회(ACM) 공동 마이크로아키텍처 국제 학술대회(MICRO)에서 지난 11월 발표됐다.
/정종오 기자(ikokid@inews24.com)
[ⓒ 아이뉴스24 무단전재 및 재배포 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.