미국 인공지능(AI) 스타트업 지프라(Zyphra)가 자연어 처리 모델 '잠바(Zamba)2-7B'를 선보였다. [사진: 지프라] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 미국 인공지능(AI) 스타트업 지프라(Zyphra)가 자연어 처리 모델 '잠바(Zamba)2-7B'를 선보였다고 15일(현지시간) 온라인 매체 기가진이 전했다.
해당 모델은 기존 언어 모델에서 사용되는 트랜스포머(Transformer) 아키텍처와 2023년 12월에 발표된 맘바(Mamba) 아키텍처를 결합한 '잠바 아키텍처'로 설계됐다. 모델은 동일한 가중치를 가진 주의 블록이 모델 내 여러 곳에서 재사용되는 공유 방식을 통해 모델의 전체 파라미터 수를 줄이면서도 트랜스포머 아키텍처의 기능을 활용할 수 있다는 점이 특징이다.
잠바2-7B는 약 7400억개의 파라미터를 가지고 있으며 2조 토큰의 텍스트와 코드 데이터로 사전 학습을 진행한 후, 약 1,000억 개의 고품질 토큰을 사용해 추가 학습 단계를 진행했다. 그 결과 잠바2-7B는 8B 이하의 파라미터를 가진 모델 중에서도 뛰어난 성능을 보였다고 지프라는 주장했다.
잠바2-7B는 기존 트랜스포머 기반 모델에 비해 작은 메모리 풋프린트로 빠른 토큰 생성이 가능하며 토큰 생성 시간은 25% 단축, 토큰 생성 속도는 20% 향상됐다. 이 모델은 오픈소스로 공개돼 연구자, 개발자, 기업이 자유롭게 사용할 수 있다. 지프라는 잠바2-7B가 소규모의 고성능, 효율적인 언어 모델로서 다양한 엔터프라이즈 애플리케이션에 적용될 수 있다고 전했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.