컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

미스트랄, GPT-4의 'MoE' 방식 도입한 '믹스트랄 8x7B' 공개

AI타임스 박찬
원문보기

미스트랄, GPT-4의 'MoE' 방식 도입한 '믹스트랄 8x7B' 공개

속보
검찰, '김학의 허위보고서' 이규원 항소심도 징역 3년 구형
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


프랑스의 간판 스타트업 미스트랄 AI가 'GPT-4'와 유사한 아키텍처를 가진 미니 모델을 공개했다. 작지만 강력한 성능을 갖춘 '소형 GPT-4'라는 설명이다.

벤처비트는 8일(현지시간) 미스트랄 AI가 '믹스트랄 8x7B(Mixtral 8x7B)' 모델을 오픈 소스로 출시했다고 보도했다.

이에 따르면 믹스트랄 8x7B는 지난 9월 출시한 '미스트랄 7B' 모델이 기반으로, GPT-4가 도입한 '전문가 믹스(MoE, Mixture of Experts)' 접근 방식을 채택해 실행 비용과 시간을 크게 줄였다.

MoE는 대형언어모델(LLM)을 생물, 물리, 수학 등 각 분야를 담당하는 작은 전문 모델(Expert)로 쪼개고, 질문에 따라 전문 모델을 연결하거나 몇 종류를 섞는 방식이다. 이 경우 전체 큰 모델을 돌리는 것보다 비용과 시간이 훨씬 적게 들어간다.

오픈AI가 일반인공지능(AGI)을 겨냥해 개발하다 중단한 '아라키스(Arrakis)' 모델도 MoE를 통해 추론 비용을 GPT-4와 흡사한 수준으로 유지하려고 시도했던 것으로 알려졌다. GPT-4도 올여름부터 MoE를 적용한 것으로 알려졌다.

미스트랄 AI는 "GPT-4는 생물, 물리, 수학 등 각 분야를 담당하는 각각 1110억 매개변수를 가진 16개 작은 전문 모델(Expert)로 쪼개고, 2개의 전문 모델이 각 토큰의 추론을 담당하는 방식으로 구축된 것으로 파악했다"라고 밝혔다.


이를 참고삼아, 믹스트랄 8x7B는 70억 매개변수를 가진 8개의 전문 모델로 구성하고 추론을 위해 토큰당 2개의 전문 모델을 할당했다. GPT-4에 비해 전문 모델 수는 2배, 모델당 매개변수는 24배 축소해 효율을 극대화했다. 또 GPT-4와 유사한 32K 컨텍스트 크기를 지원한다.

이런 설계 방식을 통해 처리 효율성과 속도를 최적화할 뿐만 아니라, 고급 서버부터 엣지 AI까지 다양한 컴퓨팅 환경에 유연하게 적응할 수 있다는 설명이다. 믹스트랄 8x7B을 실행하려면 80GB GPU 2개 또는 40GB GPU 4개가 필요하다고 소개했다.

이로 인해 믹스트랄 8x7B는 AI 환경에서 강력하면서도 접근하기 쉬운 도구라고 강조했다. 강력하고 효율적이며 더 광범위한 사용자와 애플리케이션에 접근할 수 있다고 전했다.



한편 미스트랄 AI는 별도의 보도자료 배포나 공개 행사 없이 X(트위터)를 통해 토렌트 다운로드 링크만 공개하는 방식으로 모델을 배포했다. 최근 논란이 된 구글의 '제미나이나' 발표나 오픈AI의 'GPT-4 터보' 출시 행사와는 대조를 이뤘다.

이는 미스트랄 AI가 자주 사용하는 배포 방식으로, AI 모델 설계 및 출시에 대한 새로운 표준을 만들었다는 평가도 받고 있다.

한편 10일 뉴욕타임스에 따르면 미스트랄 AI는 20억달러의 기업가치로 3억8500만유로(약 5500억원) 규모의 투자를 유치, 설립 6개월 만에 유니콘 기업에 등극했다.


또 지난 주말 펼쳐진 EU의 AI 법 협상에서도 화제의 중심이었다. EU는 미스트랄 AI 등 오픈 소스 모델에 대해서는 투명성을 이유로 강력한 규제를 펼치지 않기로 했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>