엔비디아 '라마4' 추론 가속 기술 공개…한국형 AI도 개발 박차 : ZUM 뉴스

하드웨어·소프트웨어 통합 최적화 AI 핵심 경쟁력 부상

네이버 추론형 모델 내달 공개…LG '엑사원 딥-32B' 참전

메타 라마-스카우트 모델의 블랙웰 B200 GPU·TensorRT-LLM 활용 시 초당 처리 토큰 수 향상 수준(엔비디아 홈페이지 갈무리)

(서울=뉴스1) 김민석 기자엔비디아가 메타의 오픈소스 인공지능(AI) 모델 '라마4'(Llama 4) 시리즈의 추론 속도를 획기적으로 높이는 기술을 공개해 모델 개발 경쟁이 치열해질 전망이다.

알리바바·바이두 등 중국 기업들에 이어 네이버(035420)와 LG(003550)도 정상급 AI 모델을 공개하며 주도권 경쟁에 뛰어들었다.

25일 IT 업계·외신에 따르면 엔비디아는 이달 18일(현지시간) 메타 라마4-스카우트(Scout)와 라마4-매버릭(Maverick)의 추론을 가속하는 오픈소스 기술을 발표했다.

라마4 시리즈는 메타가 처음으로 전문가혼합(Mixture of Experts·MoE) 아키텍처를 적용한 최신 모델이다. 엔비디아는 두 모델을 'TensorRT-LLM'에 최적화하고 블랙웰 FP4 텐서코어 성능을 더해 초당 토큰 처리 속도를 높였다.

엔비디아 AI 에이전트 구축 플랫폼 네모 마이크로서비스(엔비디아 제공)

최적화된 라마4-스카우트는 초당 4만 토큰 이상, 라마4-매버릭은 초당 3만 토큰 이상의 처리 속도를 기록했다. 이용자는 AI 에이전트 구축 플랫폼 '네모 마이크로서비스'에서 이를 활용할 수 있다.

엔비디아 측은 "메타는 오픈 모델 생태계를 함께 키워온 오랜 파트너"라며 "이용자들이 더 효율적으로 일하고 복잡한 과제를 해결할 수 있도록 지원하기 위해 성능은 높이고 비용은 줄이는 데 힘쓰고 있다"고 말했다.

구글 딥마인드 제미나이 2.5 프로 익스페리멘털(구글 X 갈무리)

구글 딥마인드는 지난달 복잡한 문제 해결에 특화한 추론형 사고 모델 '제미나이 2.5 프로 익스페리멘털'을 출시했다.

제미나이 2.5 프로는 사고형 아키텍처에 멀티모달과 맥락·뉘앙스(분위기) 정보 등을 결합한 통합 모델이다. 구글은 이 모델이 AI 성능 평가 벤치마크인 LM아레나에서 오픈AI 모델을 상당한 격차로 제치고 1위에 올랐다고 언급했다.

오픈AI o3 이미지(샘 올트먼 오픈AI CEO X 갈무리)

오픈AI도 최근 이미지 기반 추론 모델인 'o3'와 'o4-미니'를 공개했다. 두 모델은 이용자가 PDF·다이어그램·화이트보드 스케치 등의 이미지를 업로드하면 AI가 시각 정보를 통합 추론하는 방식으로 답변한다. 오픈AI는 'GPT-4.1'과 'GPT-4.1 미니' 'GPT-4.1 나노' 등도 개발자용으로 공개했다.

업계는 하드웨어·소프트웨어 통합 최적화가 추론형 AI 모델의 핵심 경쟁력으로 부상하고 있다고 분석했다.

한국 기업들도 추론형 AI 모델 개발에 박차를 가하고 있다.

네이버는 경량 모델 'HyperCLOVAXSEED' 시리즈 3종(3B·1.5B·0.5B) 오픈소스로 공개했다. 추론형 모델도 다음 달 공개할 계획이다.

LG는 지난달 추론형 거대언어모델(LLM) AI '엑사원 딥-32B'과 소형모델 '엑사원 딥-7.8B' 온디바이스 초소형모델 '엑사원 딥-2.4B' 등을 오픈소스로 공개했다.

LG 관계자는 "동급 모델 기준 오픈AI 모델 및 중국 딥시크 등보다 성능이 우월하다"고 말했다.

ideaed@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지. <용어설명> ■ TensorRT-LLM TensorRT-LLM은 엔비디이가 최신 파운데이션 모델 추론 성능을 엔비디아 GPU로 가속하기 위해 개발한 오픈소스 라이브러리를 말한다. ■ 네모 마이크로서비스 네모 마이크로서비스(NeMo Microservices)는 엔비디아가 기업용 AI 에이전트 구축을 위해 개발한 통합 플랫폼이다. 이 플랫폼은 AI 에이전트 제작에 필요한 데이터 수집·정제·모델학습·평가·보안·정보 검색 등 전 과정을 지원한다. ■ 멀티모달 멀티모달(Multimodal)은 멀티(Multi·복수)와 모달(Modal·형태)을 결합한 용어로 서로 다른 여러 형태의 데이터를 동시에 처리하고 이해하는 기술이나 방식을 의미한다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

엔비디아 '라마4' 추론 가속 기술 공개…한국형 AI도 개발 박차

엔비디아 다나와

쿠팡 엔비디아

CJ온스타일 엔비디아

딥러닝 전문 아이디시스템