컨텐츠로 건너뛰기
검색

[글로벌] "초당 4만 토큰 처리"...엔비디아, 라마4 추론 최적화 기술 공개

속보
경찰 특수단 "경호처 비화폰 서버기록 확보"
[김현기 대표]
/사진=디디다 컴퍼니 제공

/사진=디디다 컴퍼니 제공


엔비디아가 메타의 최신 오픈소스 AI 모델 '라마4' 시리즈 추론 성능을 대폭 향상시키는 기술을 발표하면서, 글로벌 인공지능(AI) 추론 경쟁이 새로운 국면에 접어들고 있습니다.

지난 25일(현지시간) IT업계에 따르면, 엔비디아는 지난 18일 메타의 '라마4-스카우트'와 '라마4-매버릭' 모델을 자사 오픈소스 추론 가속기인 'TensorRT-LLM'에 최적화했다고 밝혔습니다. 'TensorRT-LLM'은 엔비디아가 파운데이션 모델의 추론을 자사 GPU 환경에서 극대화할 수 있도록 개발한 오픈소스 라이브러리입니다. 초고속·저비용 추론 환경을 구축할 수 있는 것이 특징입니다.

엔비디아 측 설명에 따르면 라마4는 최신 GPU 아키텍처인 블랙웰 FP4 텐서코어를 적용해 초당 처리 가능한 토큰 수를 크게 끌어올렸으며, 스카우트는 초당 4만개, 매버릭은 3만개 이상을 처리할 수 있게 됐습니다.

라마4 시리즈는 메타가 처음으로 전문가혼합(Mixture of Experts, MoE) 아키텍처를 적용한 모델로, 상황에 따라 다른 하위 전문가 모듈을 선택해 계산 자원의 효율성을 극대화하는 구조를 가집니다. 엔비디아는 이를 바탕으로 AI 에이전트를 손쉽게 구축할 수 있는 '네모 마이크로서비스(NeMo Microservices)' 플랫폼에서 라마4 모델을 실용적으로 활용할 수 있도록 지원하고 있습니다. 이 플랫폼은 데이터 수집, 정제, 학습, 보안, 정보 검색 등 AI 개발의 전 과정을 통합 제공하는 기업형 솔루션입니다.

업계는 엔비디아의 사례처럼 하드웨어와 소프트웨어의 통합 최적화 기술이 AI 추론 성능을 가르는 핵심 경쟁력으로 부상하고 있다고 보고 있습니다. 단순히 모델을 훈련시키는 것을 넘어서, 실제 환경에서의 응답 속도와 자원 효율성이 중요한 평가 요소로 떠오른 것입니다.

구글, 오픈AI 등도 멀티모달 기반의 통합 AI 모델을 통해 경쟁력을 강화하고 있지만, 엔비디아는 GPU 기반 추론 성능의 최적화를 통해 새로운 시장 주도권을 확보하겠다는 전략을 내세우고 있습니다.


모델 경량화와 고속 추론을 동시에 실현한 라마4 실용 가능성이 더욱 주목받는 가운데, 엔비디아의 기술 리더십이 AI 에이전트 생태계 확장에 어떤 변화를 가져올지 궁금합니다.

자료=미디어뱀부
정리=김현기 기자 khk@techm.kr

<저작권자 Copyright ⓒ 테크M 무단전재 및 재배포 금지>