[박찬 기자]
허깅페이스가 대표 경량언어모델(sLM)인 '스몰LM(SmolLM)'의 최신 버전을 공개했다. 매개변수는 30억개(3B)에 불과하지만, 다국어 지원과 장문맥 처리, 고성능 추론 등 다양한 능력을 갖춘 것이 특징이다.
허깅페이스는 8일(현지시간) 최신 sLM '스몰LM3'를 오픈 소스로 공개했다.
휴대폰에서도 사용할 수 만큼 크기가 작지만, 긴 문맥 처리와 도구 사용, 다중 단계 추론 등 고성능 대형언어모델(LLM)에 요구되는 기능을 모두 갖춘 것이 특징이다.
허깅페이스가 대표 경량언어모델(sLM)인 '스몰LM(SmolLM)'의 최신 버전을 공개했다. 매개변수는 30억개(3B)에 불과하지만, 다국어 지원과 장문맥 처리, 고성능 추론 등 다양한 능력을 갖춘 것이 특징이다.
허깅페이스는 8일(현지시간) 최신 sLM '스몰LM3'를 오픈 소스로 공개했다.
휴대폰에서도 사용할 수 만큼 크기가 작지만, 긴 문맥 처리와 도구 사용, 다중 단계 추론 등 고성능 대형언어모델(LLM)에 요구되는 기능을 모두 갖춘 것이 특징이다.
특히, 최대 12만8000 토큰 길이의 멀티모달 입력을 처리할 수 있다. 대다수 장문맥 모델이 70억 매개변수 이상이라는 것을 고려하면, 스몰LM3는 효율성과 확장성을 동시 확보한 사례로 주목할 만하다.
11조개의 토큰으로 학습해 미스트랄이나 라마 2, 팰컨 등 주요 오픈 소스 모델들과 경쟁할 수 있는 수준의 성능을 갖췄다. 도구 활용이나 다단계 추론 성능에서 크기가 두세배 큰 모델들과 대등한 결과를 보인다.
두가지 버전으로 공개됐다. 기본 모델 '스몰LM3-3B-베이스' 도구 사용과 추론 작업에 최적화된 '스몰LM3-3B-인스트럭트' 등이다.
기술적인 핵심은 장문맥 최적화된 어텐션 구조다. 기존 트랜스포머 모델의 메모리 병목 문제를 해결하기 위해, 선형 및 그룹 기반 어텐션을 활용해 12만8000 컨텍스트 길이에서도 효율적인 학습과 추론을 가능케 했다. 이로써 긴 문서나 로그, 구조화된 데이터 처리에서 뛰어난 성능을 발휘한다.
이중 스몰LM3-3B-인스트럭트는 '듀얼 모드'의 추론 기능을 제공한다. 하나는 지시 수행과 도구 사용에 기반한 챗봇과 에이전트 활용에 최적화되며, 다른 하나는 다국어 질의응답과 텍스트 생성을 통해 다양한 언어 간 전이 학습을 지원한다.
도구 호출과 구조화 출력 처리 능력에서 뛰어난 성과를 보였다. 프롬프트 기반 워크플로우뿐만 아니라 API나 규격 기반 입력-출력 형식을 정확하게 따라가는 방식이 가능해, 자율 에이전트나 도구 사용에도 적합하다는 설명이다.
다국어 능력은 영어와 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어 등 6개 언어를 지원한다.
웹, 코드, 논문, 다국어 콘텐츠 등으로 구성된 고품질 코퍼스를 학습 데이터로 사용했으며, 센텐스피스(SentencePiece) 기반 12만8000 토크나이저를 사용해 최소한의 성능 저하로 언어 경계를 넘나드는 일반화 능력을 보여준다.
다양한 다국어와 추론 관련 벤치마크에서 뛰어난 성능을 입증했다.
다국어 QA 벤치마크인 'XQuAD'에서는 영어를 포함한 6개 언어 전반에 걸쳐 경쟁력 있는 질의응답 능력을 보여줬다. 추론 능력을 테스트하는 'MGSM'에서는 초등 수준의 수학 문제를 제로샷 환경에서 해결, 일부 대형 모델보다 뛰어난 추론 성능을 기록했다.
또 ToolQA와 MultiHopQA에서는 도구 기반의 활용 능력과 복잡한 다단계 추론에서 탁월한 결과를 보였으며, ARC 및 MMLU에서는 일반 상식과 전문 지식 분야 모두에서 높은 정확도를 나타냈다.
물론, 최신 7B나 13B 모델을 모든 분야에서 완전히 능가하지는 못했다.
하지만, 스몰LM3는 매개변수 대비 성능 면에서 동급 최고 수준의 효율성을 보여주며 허깅페이스의 간판 모델이라는 점을 입증했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
