컨텐츠로 건너뛰기
검색
머니투데이 언론사 이미지

눈·귀 달린 '옴니모달 모델' 수능도 술술, 전과목 1등급

머니투데이 김소연기자
원문보기

눈·귀 달린 '옴니모달 모델' 수능도 술술, 전과목 1등급

서울맑음 / -3.9 °
네이버 '하이퍼클로바 X'
여러 형태의 정보 이해·생성
글로벌 평가서 경쟁력 입증

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철

네이버클라우드 '하이퍼클로바 X시드 8B 옴니·32B 싱크' 개요/그래픽=임종철


네이버 컨소시엄의 '독자 파운데이션 AI(인공지능) 모델'은 LLM(거대언어모델) 기반의 4개사 모델과 달리 '눈과 귀가 달린 AI'다. 텍스트는 물론 이미지와 음성까지 AI가 즉각 인식하고 결과물 역시 이미지와 음성으로 내놓을 수 있는 '옴니모달 모델'이다.

최근 AI기술은 텍스트 중심으로 빠르게 발전하지만 인간의 뇌처럼 텍스트, 이미지, 음성 등 다양한 콘텐츠를 동시에 이해하고 받아들이는 데 한계가 있다. 네이버는 이같은 한계극복에 중점을 뒀다. 인간을 닮아가는 AI기술로 하나의 맥락 안에서 다양한 모달리티를 다루고 동시에 이해하고 생성해 산업분야와 실생활 활용도를 높였다.

네이버의 독자 파운데이션 모델은 2개다. 먼저 텍스트·이미지·오디오를 한 모델 안에서 동시에 인식하고 처리하는 '하이퍼클로바X시드 8B 옴니'(이하 옴니모달)다.

옴니모달 AI는 국내 첫 시도로 아예 초기부터 이미지·오디오를 텍스트와 함께 공동학습한다.

다른 하나는 옴니모달 AI의 활용성을 검증하기 위한 '하이퍼클로바X시드 32B 싱크'다. 이 모델은 텍스트·이미지 기반 VLM(비전-언어모델)에 음성을 덧붙인 것으로 텍스트를 먼저 학습한 후 멀티모달로 확장하는 방식이다.

두 모델은 각각 80억개 파라미터(8B 매개변수), 320억개 파라미터(32B 매개변수) 규모로 이번 독자 파운데이션 모델 중 가장 경량이지만 성능은 나쁘지 않다.


글로벌 AI 평가기관 아티피셜애널리시스에 따르면 싱크는 종합지식, 고난도 추론, 코딩, 에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI모델들과 유사한 성능범위에 위치했다. 다만 한국어 대비 영어실력은 글로벌 모델과 견줘 성능이 다소 낮다.

텍스트와 이미지, 음성까지 이해할 수 있어 대학수학능력시험(수능)도 볼 수 있다. 지난해말 국민 대상으로 진행한 '독자 파운데이션 모델 성과발표회'에서 5초 만에 복잡한 수능문제를 풀어내는 현장시연을 펼쳤고 테크리포트에도 2026학년도 수능에서 국어, 수학, 영어, 한국사 등 주요 과목 1등급을 받았다는 내용이 담겼다.

김소연 기자 nicksy@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.