컨텐츠로 건너뛰기
검색
머니투데이 언론사 이미지

눈·귀 달린 '옴니모달 모델' 수능도 술술, 전과목 1등급

머니투데이 김소연기자
원문보기

눈·귀 달린 '옴니모달 모델' 수능도 술술, 전과목 1등급

속보
코스피, 하락 출발…4,700선은 유지
네이버 '하이퍼클로바 X'
여러 형태의 정보 이해·생성
글로벌 평가서 경쟁력 입증

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철


네이버 컨소시엄의 '독자 파운데이션 AI(인공지능) 모델'은 LLM(거대언어모델) 기반의 4개사 모델과 달리 '눈과 귀가 달린 AI'다. 텍스트는 물론 이미지와 음성까지 AI가 즉각 인식하고 결과물 역시 이미지와 음성으로 내놓을 수 있는 '옴니모달 모델'이다.

최근 AI기술은 텍스트 중심으로 빠르게 발전하지만 인간의 뇌처럼 텍스트, 이미지, 음성 등 다양한 콘텐츠를 동시에 이해하고 받아들이는 데 한계가 있다. 네이버는 이같은 한계극복에 중점을 뒀다. 인간을 닮아가는 AI기술로 하나의 맥락 안에서 다양한 모달리티를 다루고 동시에 이해하고 생성해 산업분야와 실생활 활용도를 높였다.

네이버의 독자 파운데이션 모델은 2개다. 먼저 텍스트·이미지·오디오를 한 모델 안에서 동시에 인식하고 처리하는 '하이퍼클로바X시드 8B 옴니'(이하 옴니모달)다.

옴니모달 AI는 국내 첫 시도로 아예 초기부터 이미지·오디오를 텍스트와 함께 공동학습한다.

다른 하나는 옴니모달 AI의 활용성을 검증하기 위한 '하이퍼클로바X시드 32B 싱크'다. 이 모델은 텍스트·이미지 기반 VLM(비전-언어모델)에 음성을 덧붙인 것으로 텍스트를 먼저 학습한 후 멀티모달로 확장하는 방식이다.

두 모델은 각각 80억개 파라미터(8B 매개변수), 320억개 파라미터(32B 매개변수) 규모로 이번 독자 파운데이션 모델 중 가장 경량이지만 성능은 나쁘지 않다.


글로벌 AI 평가기관 아티피셜애널리시스에 따르면 싱크는 종합지식, 고난도 추론, 코딩, 에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI모델들과 유사한 성능범위에 위치했다. 다만 한국어 대비 영어실력은 글로벌 모델과 견줘 성능이 다소 낮다.

텍스트와 이미지, 음성까지 이해할 수 있어 대학수학능력시험(수능)도 볼 수 있다. 지난해말 국민 대상으로 진행한 '독자 파운데이션 모델 성과발표회'에서 5초 만에 복잡한 수능문제를 풀어내는 현장시연을 펼쳤고 테크리포트에도 2026학년도 수능에서 국어, 수학, 영어, 한국사 등 주요 과목 1등급을 받았다는 내용이 담겼다.

김소연 기자 nicksy@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.