KAIST 연구팀 '학습능력 100배 가속' 기술 개발
연구팀이 개발한 스텔라트레인 프레임워크 모식도. GPU 활용률을 극대화하고 학습 시간을 단축하기 위해 CPU 기반 그래디언트를 최적화하는 한편 네트워크 상황에 따라 학습 내용의 크기를 실시간으로 조절하는 동적 최적화 기술을 적용했다. /사진=KAIST |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
고가의 GPU(그래픽 처리 장치)나 고속 네트워크 없이도 AI(인공지능) 모델을 학습시킬 수 있는 기술이 국내에서 나왔다.
KAIST(카이스트)는 한동수 전기및전자공학부 교수가 이끄는 연구팀이 미국 UC어바인대 연구팀과 함께 제한된 네트워크 환경에서도 AI 모델 학습 능력을 100배 이상 가속할 수 있는 기술을 개발했다고 19일 밝혔다.
AI 모델 학습을 위해선 엔비디아 H100 등 값비싼 고성능 서버용 GPU와 이들을 연결하기 위한 400Gbps(초당 기가비트)급 고속 네트워크를 갖춘 고가 인프라가 필요하다. 비용 문제는 IT 분야 중소기업 및 대학연구팀이 연구 인프라를 구축하는 데 가장 큰 걸림돌이라고 알려졌다.
한 교수 연구팀은 분산 학습 프레임워크 '스텔라트레인(StellaTrain)'을 개발했다. 엔비디아 H100의 20분의 1 가격 수준인 소비자용 GPU로 일반 인터넷 환경에서도 효율적으로 AI 학습이 가능하다.
저가 GPU를 사용할 때 AI 학습 속도가 느려지는 이유는 GPU의 메모리가 작고 네트워크 속도에 제한이 있기 때문이다. 연구팀은 CPU(중앙처리장치)와 GPU를 병렬로 활용해 학습 속도를 높였다. CPU와 GPU가 학습 내용을 작업 단계별로 나눠 병렬적으로 처리할 수 있도록 한 것. 또 GPU 간 데이터 전송량을 주변 네트워크 환경에 맞춰 유동적으로 줄이거나 늘릴 수 있도록 했다. 그 결과 고속 네트워크 없이도 여러 대 저가 GPU를 통한 빠른 학습이 가능해졌다.
연구팀이 스텔라트레인 기술을 적용한 결과, 기존 학습 방법에 비해 최대 104배까지 빠른 성능을 낼 수 있는 것으로 나타났다.
연구를 이끈 한 교수는 "이번 연구는 대규모 AI 모델 학습에 누구나 쉽게 접근할 수 있도록 하는 데 크게 기여할 것"이라며 "앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술을 계속 개발하겠다"고 밝혔다.
이번 연구는 지난 8월 호주 시드니에서 열린 'ACM SIGCOMM 2024'에서 발표됐다. 과학기술정보통신부 중견연구사업과 정보통신기획평가원(IITP) 정보통신·방송기술개발사업 및 표준개발지원사업, 차세대통신클라우드리더십구축사업, 삼성전자의 지원을 받았다.
한동수 KAIST 전기및전자공학부 교수 /사진=KAIST |
박건희 기자 wissen@mt.co.kr
ⓒ 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.