'국가대표 AI' 2단계 평가 승부처는 '멀티모달'? : zum 뉴스

SK텔레콤 "2단계부터 멀티모달 본격화"…LG AI연구원, 업스테이지도 멀티모달 목표

정부가 '국가대표 AI(인공지능)'를 육성하겠다며 추진 중인 '독자 AI 파운데이션 개발 프로젝트' 2단계 평가 승부처가 '멀티모달(Multi-modal)'이 될 것이라는 관측이다.

앞서 1단계 평가에서는 5개 팀 가운데 LG AI연구원과 업스테이지, SK텔레콤이 2단계 진출에 성공했고, 네이버클라우드와 NC AI는 탈락의 고배를 마셨다.

멀티모달은 텍스트와 이미지, 음성, 영상 등 다양한 형태의 데이터(모달리티)를 동시에 이해하고 처리해 인간처럼 복합적으로 사고하는 능력을 뜻한다.

2단계 진출 3개 팀 가운데 SK텔레콤이 멀티모달에 가장 적극적인 모습이다.

SK텔레콤은 2단계 개발부터 자사 AI 모델 A.X K1에 멀티모달 기능을 본격적으로 도입하기로 했다.

우선 이미지 데이터를 처리하는 기능을 A.X K1에 적용해 논문이나 업무 문서 이미지를 인식하고, 이를 텍스트로 요약하는 작업이 가능하게 할 예정이다.

또, 올해 하반기 이후에는 음성과 영상 데이터까지 처리할 수 있도록 기능을 확대할 방침이다. 텍스트 중심 AI를 넘어, 이미지·음성·영상 등 다양한 정보를 이해하고 분석하는 AI로 진화시키겠다는 구상이다.

SK텔레콤은 모델 성능 고도화도 병행해, 학습 데이터 규모를 1단계보다 늘리고 학습 언어도 한국어·영어·중국어·일본어·스페인어 등 5개 국어로 확대해 범용성과 활용도를 높일 계획이다.

이와 관련해 SK텔레콤과 함께 멀티모달 연구를 진행 중인 서울대 컴퓨터공학부·첨단융합학부 김건희 교수가 지난 22일 SK텔레콤 뉴스룸에 기고문을 올렸다.

기고문에서 김건희 교수는 "초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 음성까지 이해하는 '옴니모달' 모델로 진화 중"이라고 강조했다.

김 교수는 "기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 단방향 소통이라면, 음성 대화는 동시적이고 양방향적인 특성을 가진다"고 설명했다.

업스테이지도 3단계 평가부터 언어와 이미지를 통합적으로 이해하는 멀티모달 기능을 확보하겠다고 밝힌 바 있다.

LG AI연구원은 아직 구체적 계획을 내놓지 않았지만, 최종적으로 멀티모달 모델 수립을 목표로 하는 것으로 전해졌다.

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.

이메일 : jebo@cbs.co.kr
카카오톡 : @노컷뉴스
사이트 : https://url.kr/b71afn

이 기사의 카테고리는 언론사의 분류를 따릅니다.