컨텐츠로 건너뛰기
검색
연합뉴스 언론사 이미지

독자 AI 모델 2차 평가, 멀티모달이 가른다

연합뉴스 오지은
원문보기

독자 AI 모델 2차 평가, 멀티모달이 가른다

서울맑음 / -3.9 °
SKT·LG·업스테이지 정예팀, 이미지·음성 경쟁 본격화
텍스트 넘어 음성 대화까지…개발 난이도 급상승
(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 개발 프로젝트 2차 평가부터는 멀티모달이 모델 경쟁의 승부처가 될 전망이다.

SK텔레콤 부스(서울=연합뉴스) 강민지 기자 = 30일  서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 참석자들이 SK텔레콤 부스를 체험하고 있다. 2025.12.30 mjkang@yna.co.kr

SK텔레콤 부스
(서울=연합뉴스) 강민지 기자 = 30일 서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 참석자들이 SK텔레콤 부스를 체험하고 있다. 2025.12.30 mjkang@yna.co.kr


1차 평가에 통과한 SK텔레콤[017670], LG AI연구원, 업스테이지 모두 최종적으로 멀티모달 모델을 만들겠다고 밝혔기 때문이다.

25일 정보통신기술(ICT) 업계에 따르면 SK텔레콤 정예팀은 2단계 개발부터 AI 모델 A.X K1에 이미지나 음성 등 멀티모달 기능을 단계적으로 적용한다.

SKT 정예팀에서 멀티모달 연구를 진행 중인 김건희 서울대 컴퓨터공학부·첨단융합학부 교수는 지난 22일 SK텔레콤 뉴스룸에 이러한 내용의 기고문을 올렸다.

김 교수는 "초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 음성까지 이해하는 옴니모달 모델로 진화 중이다"라고 말했다.

김 교수는 특히 음성 대화를 AI 모델에서 구현하는 데는 기술적 도전 과제가 따른다고 강조했다.


그는 "기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 턴(turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시대적이고 양방향적인 특성을 가진다"라며 "상대방이 말하는 도중 개입하거나 짧은 백채널(피드백)을 주고받는 실시간 상호작용이 필요하다"라고 설명했다.

아울러 복잡한 표현 방식을 반영해야 하는 어려움도 지적됐다.

김 교수는 "초기에는 음성인식(STT)과 음성합성(TTS)을 결합하는 단계적 방식을 썼지만 응답 지연, 호흡, 감정 등 고유 정보 손실 문제가 있었다"라며 "강력한 사전학습된 언어모델을 핵심에 두고 음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 개발의 핵심"이라고 덧붙였다.


SK텔레콤은 향후 옴니모달 모델을 에이닷 서비스에 적용해 통화 요약, 티맵, B tv 등에서 실시간 음성 대화를 지원하는 계획을 세웠다.

업스테이지는 앞서 3차 평가부터 언어와 이미지를 통합적으로 이해하는 멀티모달 기능을 확보한다고 밝힌 바 있다.

LG AI연구원은 구체적인 계획을 밝힌 바 없지만 궁극적으로 멀티모달 모델을 수립하는 것을 목표하고 있다고 전해졌다.


한편 정부가 독자 AI 프로젝트 1차 평가에서 네이버와 NC AI를 탈락시키며 1개 팀을 추가 공모하기로 발표하면서 재도전팀이 멀티모달 개발에 도전할지도 관심이 쏠리고 있다.

현재 스타트업인 모티프테크놀로지스와 트릴리온랩스가 재도전 의사를 밝혔는데 김 교수가 지적했듯이 멀티모달은 대형언어모델(LLM)에 비해 개발 난이도가 높기 때문이다.

먼저 모티프테크놀로지스는 "고성능 LLM과 대형멀티모달모델을 모두 파운데이션 모델로 개발한 경험을 갖춘 국내 유일의 스타트업"이라며 멀티모달 개발을 목표로 한다는 의사를 밝힌 바 있다.

built@yna.co.kr

▶제보는 카카오톡 okjebo
▶연합뉴스 앱 지금 바로 다운받기~
▶네이버 연합뉴스 채널 구독하기
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>