멀티모달 경쟁 본격화로 독자성 논란 재점화 우려
편집자주
국가대표 인공지능(AI) 선발전으로 불리는 정부의 '독자 AI 파운데이션 모델(독파모) 프로젝트'가 '독자성' 논란으로 시끄럽다. 독자 AI 프로젝트 1차 평가 과정에서 AI 모델 제작 시 처음부터 모든 것을 자체 개발해야 한다는 '프롬 스크래치' 개념이 정밀하지 못했다는 비판이 거세며 정부의 명확한 입장을 요구하는 목소리가 커진 것이다. 아시아경제는 독자성 논란을 바라보는 업계의 입장을 다각도로 조명하고, 독파모 프로젝트가 최종적으로 우리나라 AI 생태계 발전을 위한 디딤돌이 될 수 있는 방안을 모색해봤다.
"정부의 '독자 인공지능(AI) 파운데이션 모델(독파모)' 프로젝트 2차 선정 과정은 '멀티모달'의 싸움이 될 것입니다. 1차 선정 과정에서 네이버의 탈락을 목도한 생존팀들이 같은 실수를 반복하지 않는지 매서운 눈으로 지켜보겠죠."
28일 IT업계에 따르면 1차 선정 과정에서 정예팀들이 텍스트 기반의 초거대 언어모델(LLM)로 경쟁했다면 다음 단계에서는 사진, 동영상을 통합적으로 이해하는 멀티모달로 업데이트하고, 음성까지 이해하는 옴니모달 모델을 시도할 계획이다. 이를 단시간에 독자적으로 진행하는 것은 앞선 과정보다 더 어려운 과제이기 때문에 1차에서 선정된 LG AI연구원, SK텔레콤, 업스테이지 등은 전략 노출을 최소화 하면서 개발 중인 상황이다.
서울대 한보형 전기·정보공학부 교수는 "각 회사마다 개발 과정이 다를 수 있다. 1차 평가 시 랭귀지 기반이었는데 네이버(NAVER)는 차별화를 위해 옴니모달로 방향을 잡았던 과정에서 인코더 도용 논란이 벌어졌고 이로 인해 선정에서 고배를 마신 만큼 2차 평가를 받는 정예팀들은 더욱 심혈을 기울여야 할 것"이라고 말했다.
기존 팀들이 텍스트 기반이었다면 앞으로의 과제는 이미지, 동영상, 음성으로 이뤄진 대화를 AI 모델에서 구현해야 하기 때문에 각사의 기술력 차이가 드러날 수 있다. 특히나 네이버클라우드의 사례에서 봤듯 오픈소스를 쓰더라도 학습이 이미된 가중치를 그대로 가져다 쓰는 것에 패널티를 분명히 한 정부의 입장이 밝혀진 상태라 경쟁업체들의 손이 더욱 분주해지고 있다.
AI 업계 관계자는 "거대언어모델(LLM)을 만든 후에도 계속 재투자해서 오랫동안 좋은 모델을 유지할 수 있는 게 중요하다"면서 "이런 점에서 인프라를 갖춘 네이버가 강력한 우승 후보로 꼽혀왔지만 결과적으로 네이버가 중국 알리바바 큐원의 비전 인코더를 도입하면서 가중치까지 그대로 갖다쓴 이유로 탈락한 만큼 다른 회사들의 고민도 계속될 것"이라고 짚었다.
익명을 요구한 AI 업계 대표는 "1차 선정 과정에서 텍스트 기반의 타 모델 대비 네이버는 옴니모달 방식을 제안했는데 타 경쟁사도 텍스트 이후 단계에서는 네이버와 동일한 문제 불거질 가능성을 배제할 수 없다"면서 "멀티모달 경쟁이 본격화될 경우 인코더·모듈 차원의 독자성 논란이 재연될 수 있다"고 우려했다.
텍스트 기반 LLM보다 기술 구현 어려워…'독자성' 기준 맞추기 과제
텍스트 기반 LLM 경쟁을 넘어 이미지·음성·영상까지 아우르는 모델이 2차 평가의 핵심 변수가 될 수 있다는 관측이 확산하면서, 주요 정예팀과 도전자들 모두 멀티모달 준비에 속도를 내는 분위기다.
LG AI연구원 고위 관계자는 "엑사원 1.0부터 멀티모달을 염두에 둔 모델 개발을 해왔고 관련 기술을 이미 확보하고 있다"며 "다른 컨소시엄들이 2차 평가를 앞두고 멀티모달 구현 방식을 새로 고민해야 하는 것과 달리, 우리는 기존에 축적된 기술을 고도화하는 단계에 가깝다"고 말했다.
SKT 역시 멀티모달을 2차 평가의 주요 축으로 준비하고 있다. SKT 정예팀은 5000억개가 넘는 매개변수를 갖춘 초거대 LLM 'A.X K1'을 앞세워 1차 평가에서 성능을 입증한 뒤, 2단계부터 이미지 데이터를 시작으로 멀티모달을 순차 적용한다는 계획이다. 논문·업무 문서 이미지를 인식해 요약하는 기능을 시작으로, 하반기 이후에는 음성과 영상까지 처리 범위를 넓힌다는 구상이다.
업스테이지와 트릴리온랩스 등 스타트업 진영에서도 멀티모달 준비는 진행 중이지만, 접근 방식은 보다 신중하다. 권순일 업스테이지 부사장은 "개발을 진행하다 보면 멀티모달을 당겨서 적용하는 게 더 낫겠다고 판단할 수도 있고, 그 부분은 충분히 유동적"이라며 "일단 지식 수준이 높은 모델을 만드는 게 관건"이라고 말했다. 독자성을 앞세워 재공모에 도전한 모티프테크놀로지스 임정환 대표는 "고성능 LLM과 대형멀티모달모델을 모두 파운데이션 모델로 개발한 경험을 갖춘 유일한 스타트업"이라고 강조했다.
추가 정예팀 모집에 출사표를 내민 트릴리온랩스 역시 멀티모달 모델을 염두에 두고 기술 준비를 이어가고 있으며, 개발자 추가 채용도 이어가고 있다. 트릴리온랩스 관계자는 "비전 언어 모델(VLM) 등 멀티모달 모델에 대한 연구는 이미 내부적으로 진행해온 영역"이라며 "정예팀에 선정돼 2단계를 본격적으로 고민하게 되면, 이미지 같은 비텍스트 데이터를 결합하는 멀티모달 모델 역시 중요한 선택지가 될 수밖에 없다"고 덧붙였다.
서소정 기자 ssj@asiae.co.kr
박유진 기자 genie@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
