[박찬 기자]
마이크로소프트(MS) 연구진이 이제까지 공개된 것 중 가장 큰 1비트 인공지능(AI) 모델, 일명 '비트넷(BitNet)'을 개발했다고 발표했다. 비트넷은 모델 가중치를 1비트 또는 낮은 비트로 압축해 CPU 같은 경량 하드웨어에서도 실행할 수 있도록 극도로 압축한 AI 모델이다.
MS는 12일(현지시간) 허깅페이스를 통해 20억 매개변수의 오픈 소스 모델 '비트넷 b1.58 2B4T'를 공개했다.
이 모델은 애플 'M2' 칩 같은 CPU에서도 실행 가능하다는 점이 특징이다.
마이크로소프트(MS) 연구진이 이제까지 공개된 것 중 가장 큰 1비트 인공지능(AI) 모델, 일명 '비트넷(BitNet)'을 개발했다고 발표했다. 비트넷은 모델 가중치를 1비트 또는 낮은 비트로 압축해 CPU 같은 경량 하드웨어에서도 실행할 수 있도록 극도로 압축한 AI 모델이다.
MS는 12일(현지시간) 허깅페이스를 통해 20억 매개변수의 오픈 소스 모델 '비트넷 b1.58 2B4T'를 공개했다.
이 모델은 애플 'M2' 칩 같은 CPU에서도 실행 가능하다는 점이 특징이다.
일반적인 AI 모델에서는 '가중치(weights)'라고 불리는 매개변수를 정의하는 값들을 양자화(quantization), 즉 압축한다. 이를 통해 메모리 사용량과 연산 속도를 줄인다.
특히 비트넷 b1.58은 이를 -1, 0, 1의 세가지 값만으로 양자화, 극한의 최적화를 추구한다. 이 덕분에 훨씬 적은 메모리와 연산량으로 모델을 실행할 수 있다.
연구진은 비트넷 b1.58 2B4T가 20억개의 매개변수를 갖춘 최초의 비트넷이라고 강조했다다. 이 모델은 3300만권의 책에 해당하는 약 4조개의 토큰으로 훈련됐으며, 비슷한 크기의 기존 모델보다 성능이 뛰어나다고 주장했다.
물론, 모든 경쟁 모델을 압도하는 정도는 아니다. 메타의 '라마 3.2 1B'나 구글의 '젬마 3 1B', 알리바바의 '큐원 2.5 1.5B' 등을 대상으로 한 GSM8K(초등 수학), PIQA(물리 상식 추론 능력) 같은 벤치마크에서 일정 수준 이상의 성능을 보여줬다.
더 중요한 점은 같은 크기의 다른 모델보다 최대 2배까지 빠르게 작동하며, 메모리 사용량도 매우 적다는 것이다.
단점도 있다. 이 모델은 CPU에서 비트넷을 실행하기 위한 MS의 전용 프레임워크(bitnet.cpp)를 사용할 때만 가능하다. x86 및 ARM CPU 아키텍처에서만 작동하며, AI 인프라의 핵심인 GPU는 지원하지 않는다.
이처럼 비트넷은 자원이 제한된 환경에서 AI를 실행할 수 있는 가능성을 보여주지만, 호환성 문제가 과제로 남을 것이라는 평을 받고 있다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
