컨텐츠 바로가기

03.26 (수)

앤트, '일부러' 저사양 중국산 칩으로 훈련한 MoE 모델 출시

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


알리바바의 핀테크 계열사 앤트가 효율성을 강조한 '전문가 혼합(MoE)' 모델을 선보였다. 특히, 모델 학습을 위해 엔비디아의 GPU가 아닌, AMD나 중국의 저사양 칩을 활용했다고 강조했다.

앤트는 24일(현지시간) MoE 모델의 학습 과정에서 발생하는 비용 비효율성과 자원 제한 문제를 해결하는 LLM '링(Ling)'에 관한 논문을 온라인 아카이브에 게재했다.

딥시크 개발에도 적용된 MoE는 쿼리에 따라 활성화되는 매개변수 수는 적지만, 전체 모델 크기가 크기 때문에 여전히 높은 메모리 요구량이 필요하다. 이로 인해 발생하는 높은 비용은 자원이 제한된 환경에서의 MoE 모델의 도입을 어렵게 만드는 주요한 장애물이 된다.

앤트는 이런 문제를 보완하기 위해 제한된 자원과 예산 환경에서도 효율적인 LLM 학습이 가능한 학습 전략을 도입했다. 이를 통해 MoE 모델이 단위 컴퓨팅 비용을 절감하면서도 성능을 유지할 수 있도록 설계됐다.

핵심은 자원이 제한된 환경에서도 효율적인 모델 학습을 가능하게 하도록 모델 아키텍처 학습 프레임워크 저장소 최적화 전략을 사용한다는 점이다.

모델 아키텍처 최적화는 가용한 컴퓨팅 자원에 가장 적합한 모델 아키텍처를 선택한다. 이를 통해 제한된 자원에서도 최적의 성능을 발휘할 수 있도록 한다.

학습 프레임워크 최적화는 다양한 컴퓨팅 플랫폼에서 사용할 수 있도록 여러 학습 프레임워크를 통합하여 하나의 분산 딥러닝 프레임워크로 구성한다. 이를 위해 'XPU타이머(XPUTimer)'라는 경량화된 디버깅 도구를 개발, 메모리 사용량을 90%까지 줄였다. 또 '에디트(EDiT)'라는 비동기 학습 전략으로 학습 시간을 최대 66.1%까지 단축할 수 있었다고 밝혔다.

고성능 저장소를 구현하기 위해 장치 다중 임대(device multi-tenancy)와 사용자 공간 파일 시스템(FUSE) 기술을 적용했다. 이를 통해 MoE 모델 학습에서 입출력 효율성을 개선하고, 시간 오버헤드를 50%까지 줄일 수 있었다.

이런 최적화를 기반으로 총 매개변수 168억개, 활성화 매개변수 27.5억개의 '링-라이트(Ling-Lite)' 총 매개변수 2900억개, 활성화 매개변수 288억개의 '링-플러스(Ling-Plus)'를 구축했다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>



AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


두 모델 모두 벤치마크에서 우수한 성능을 보였다.

2900억 매개변수를 가진 링-플러스가 낮은 사양의 하드웨어에서도 효과적으로 학습할 수 있으며, '큐원2.5-72B-인스트럭트'와 '딥시크-V2.5-1210-챗'과 같은 비슷한 크기의 모델과 동등한 성능을 달성했다.

특히 사전 학습(pre-training) 단계에서 낮은 사양의 하드웨어 시스템을 활용할 경우, 고성능 장치를 사용할 때보다 약 20%의 컴퓨팅 비용 절감 효과를 거둘 수 있다고 강조했다. 고성능 하드웨어를 사용해 1조개의 토큰을 학습시키는 데는 635만위안(약 12억7000만원)이 들지만, 링에 적용된 방식을 사용하면 저사양 하드웨어로 비용을 510만위안(약 10억2000만원)으로 줄일 수 있다고 전했다.

한편, 모회사인 알리바바에 이어 앤트까지 저비용 고효율 모델 개발에 나선 것은 미국의 기술 제재에 따른 중국의 현실을 반영한 것이다. 앤트는 기술 제재 이전에 확보한 엔비디아 칩이 있지만, 이번 모델 개발을 위해 일부러 저사양 칩을 사용했다고 밝혔다.

링-라이트 및 링 플러스 모델은 허깅페이스에서 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.