컨텐츠로 건너뛰기
검색
연합뉴스 언론사 이미지

독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'

연합뉴스 오지은
원문보기

독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움'

속보
민주 중앙당 윤리심판원, 김병기 의원 제명 결정
이번엔 숫자 처리 놓고 이견…네이버 "연산 기능 향상 목적" 해명
(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 모델 사업 선정을 놓고 경쟁이 가열되면서 연이은 논란으로 진흙탕 싸움이 벌어지고 있다.

이번에는 독자 AI 정예팀 중 한 곳인 네이버가 중국 알리바바 큐웬(Qwen) 모델과 동일한 숫자 처리 접근 방법을 적용했다는 주장이 일각에서 제기되면서 의견이 엇갈리고 있기 때문이다.

네이버 테크리포트 상 토크나이저 설명[테크리포트 캡처. 재판매 및 DB 금지]

네이버 테크리포트 상 토크나이저 설명
[테크리포트 캡처. 재판매 및 DB 금지]


12일 네이버의 독자 AI 파운데이션 모델인 하이퍼클로바 X 32B 싱크 모델의 테크 리포트에 따르면 네이버는 토큰화 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬(Qwen)의 숫자 처리 접근방법을 동일하게 적용한 것으로 알려졌다.

먼저 토큰은 AI 모델이 텍스트를 이해할 수 있는 가장 작은 단위로, 토크나이저는 문장이나 단어를 토큰으로 쪼개는 도구를 의미한다.

네이버클라우드는 "라마나 큐웬의 토크나이저를 가져다 쓴 것은 아니다"라고 일축했다.

네이버클라우드는 "테크 리포트에 언급된 내용은 숫자를 한 자리씩 토큰화하는 방식을 의미한다"라며 "라마와 큐웬 방식을 적용한 이유는 코드와 수학 문제에서 숫자와 연산 기능이 향상되기 때문이다"라고 전했다.


예컨대 숫자 '12345'를 처리할 때 1, 2, 3, 4, 5로 각 숫자를 개별 토큰으로 처리하는 게 라마와 큐웬 방식이라면 네이버클라우드가 이를 동일하게 적용했다는 의미로 볼 수도 있다.

하지만 네이버클라우드는 "이는 업계 표준을 따른 것"이라고 해명했다.

AI 업계에서는 네이버의 라마와 알리바바의 토큰화 방식을 적용한 것을 두고 엇갈린 의견을 내놓고 있다.


한 AI 업계 관계자는 "AI가 문자를 이해하려면 문자를 벡터로 변환해야 하는데 토큰화에서 외국 모델 방식을 적용했다면 한국어 맥락을 국산 모델 방식만큼 반영하지 못할 수 있다"라고 말했다.

반면 다른 관계자는 "수학이나 과학 영역에서는 자릿수 단위로 자르는 게 (추론에) 유리하기 때문에 이러한 토큰화 방식을 적용하는 경우가 있다"고 설명했다.

한편 LG AI연구원, 업스테이지, SK텔레콤[017670], NC AI 등 여타 정예팀은 토큰화 작업에서 다른 모델 방식을 적용하지 않고 자체적인 고도화 작업을 거친 것으로 전해졌다.


정부는 독자 AI 사업 정예팀 5곳의 AI 모델 평가를 마친 뒤 오는 15일 1차 탈락 컨소시엄을 발표할 예정이다.

built@yna.co.kr

▶제보는 카카오톡 okjebo
▶연합뉴스 앱 지금 바로 다운받기~
▶네이버 연합뉴스 채널 구독하기
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>