<이미지를 클릭하시면 크게 보실 수 있습니다> |
세레브라스가 세계 최고 속도의 AI 추론 성능을 기록했다고 발표했다.
세레브라스는 20일(현지시간) 메타의 대형언어모델(LLM) '라마 3.1 405B'를 초당 969 토큰 속도로 실행, AWS의 GPU 기반 AI 서비스보다 75배 빠른 성능을 달성했다고 발표했다.
클라우드 기반 AI 추론 서비스인 '세레브라스 인퍼런스(Cerebras Inference)'는 엔비디아나 AMD GPU를 사용하는 대신, 자체 개발한 3세대 '웨이퍼 스케일 엔진(WSE)' 프로세서를 활용한다.
세레브라스는 이 칩으로 AI 추론 과정에서 세계 최고 속도를 구현했다고 주장하고 있다.
올해 8월 서비스 출시 당시에는 '라마 3.1 8B' 및 '70B' 모델에서 AWS의 GPU보다 약 20배 빠른 성능을 기록했다고 밝힌 바 있다.
이후 메타는 4050억개의 매개변수를 가진 '라마 3.1 405B' 모델을 세레브라스 인퍼런스에서 실행하도록 지원했다. 이는 기존 700억 매개변수를 가진 '라마 3.1 70B'보다 훨씬 복잡한 모델이다.
세레브라스는 WSE 프로세서가 초당 969토큰 처리 속도와 첫 토큰 생성 시간 0.24초를 기록하며 모델을 실행했다고 밝혔다. 이는 해당 모델은 물론 세레브라스 칩 중에서도 가장 빠른 기록이다.
특히 AWS의 엔비디아 GPU를 사용한 서비스와 비교해 세레브라스 인퍼런스는 75배 빠른 성능을 기록했으며, 투게더 AI의 최고속 GPU보다도 12배 더 빨랐다. 경쟁 업체 삼바노바와 비교해도 6배 이상의 성능 차이를 보였다.
쿼리 크기를 1000토큰에서 10만토큰으로 확장했을 때도 세레브라스 인퍼런스는 초당 539토큰 속도를 유지했다. 이 작업을 처리할 수 있는 다른 5개의 서비스 중 가장 빠른 서비스도 초당 49토큰에 그쳤다.
https://twitter.com/CerebrasSystems/status/1858591653906575470
이에 따라 세레브라스에서 실행되는 라마 3.1 405B는 'GPT-4o'보다 12배, '클로드 3.5 소네트'보다 18배 빠른 성능을 보여주며 세계에서 가장 빠른 프론티어 모델로 자리 잡았다.
세레브라스는 이 모델을 현재 기업과 테스트 중이며, 내년 1분기에 정식 출시할 예정이라고 밝혔다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.