컨텐츠 바로가기

09.21 (토)

MS, 'o1' 빼닮은 '그린-MoE' 모델 출시..."코딩·수학 뛰어난 저가형 모델"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


마이크로소프트(MS)가 쿼리에 따라 필요한 전문 모델만 처리를 담당하는 '전문가 혼합(MoE)' 방식으로 코딩 및 수학과 같은 복잡한 작업의 성능을 향상하는 인공지능(AI) 모델을 공개했다. 추론에 강한 오픈AI의 'o1' 모델과 흡사한 기능을 가진, 저렴한 버전으로 포지셔닝하려는 의도로 해석된다.

벤처비트는 19일(현지시간) MS가 '희소 계산 MoE' 접근 방식을 채택해 실행 비용과 시간을 크게 줄인 새로운 모델 '그린-MoE(GRIN-MoE)'에 관한 논문을 아카이브에 게재했다고 보도했다.

그린-MoE는 LLM을 수학, 코딩, 물리, 생물 등 각 분야를 담당하는 작은 전문 모델(Expert)로 쪼개고, 질문에 따라 전문 모델을 연결하거나 몇 종류를 섞는 방식이다. 이 경우 관련 없는 전문 모델은 빼고 관련 있는 모델만 돌리기 때문에 비용과 시간이 훨씬 적게 들어간다.

전문가 모델을 호출하는 그래디언트(Gradient) 추정 '스파스믹서-v2(SparseMixer-v2)'를 사용, 모델 내에서 작업을 특화된 전문가에게 분배하는 희소 계산을 달성함으로써 적은 자원을 사용하면서도 고성능을 제공한다.

아키텍처는 16×38억개의 매개변수로 구성돼 있지만, 추론 시에는 66억개의 매개변수만 활성화돼 계산 효율성과 작업 성능 간의 균형을 제공한다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


벤치마크 테스트에서 유사하거나 더 큰 크기의 모델들을 능가하는 성능을 보여줬다.

멀티태스크 추론 능력을 평가하는 MMLU 벤치마크에서 79.4점을 기록했으며, 수학 문제 해결 능력을 평가하는 GSM-8K 테스트에서는 90.4점을 받았다. 특히, 코딩 작업을 평가하는 휴먼이밸 벤치마크에서 74.4점을 기록, 'GPT-3.5 터보' 등을 능가했다.

MMLU에서는 각각 70.5점과 78.9점을 기록한 '믹스트랄 8x7B'나 '파이-3.5-MoE'와 같은 MoE 모델들을 능가했다.

특히 코딩 및 수학 작업에서 강력한 추론 성능을 제공하는 오픈AI의 o1 모델의 저렴한 버전으로, 기업 애플리케이션에 적합하다는 평가다.

심지어 모델의 단점도 o1과 비슷하다. 연구진은 "자연어 작업에서 모델이 최적이 아닌 성능을 보이는 것을 발견했다"라며 "이는 모델의 훈련이 추론 및 코딩 능력에 초점이 맞춰졌기 때문"이라고 설명했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.