독자 AI 경쟁 가열…연이은 논란에 '진흙탕 싸움' : zum 뉴스

이번엔 숫자 처리 놓고 이견…네이버 "연산 기능 향상 목적" 해명

(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 모델 사업 선정을 놓고 경쟁이 가열되면서 연이은 논란으로 진흙탕 싸움이 벌어지고 있다.

이번에는 독자 AI 정예팀 중 한 곳인 네이버가 중국 알리바바 큐웬(Qwen) 모델과 동일한 숫자 처리 접근 방법을 적용했다는 주장이 일각에서 제기되면서 의견이 엇갈리고 있기 때문이다.

네이버 테크리포트 상 토크나이저 설명
[테크리포트 캡처. 재판매 및 DB 금지]

12일 네이버의 독자 AI 파운데이션 모델인 하이퍼클로바 X 32B 싱크 모델의 테크 리포트에 따르면 네이버는 토큰화 과정에서 메타의 라마(LLaMA)와 알리바바의 큐웬(Qwen)의 숫자 처리 접근방법을 동일하게 적용한 것으로 알려졌다.

먼저 토큰은 AI 모델이 텍스트를 이해할 수 있는 가장 작은 단위로, 토크나이저는 문장이나 단어를 토큰으로 쪼개는 도구를 의미한다.

네이버클라우드는 "라마나 큐웬의 토크나이저를 가져다 쓴 것은 아니다"라고 일축했다.

네이버클라우드는 "테크 리포트에 언급된 내용은 숫자를 한 자리씩 토큰화하는 방식을 의미한다"라며 "라마와 큐웬 방식을 적용한 이유는 코드와 수학 문제에서 숫자와 연산 기능이 향상되기 때문이다"라고 전했다.

예컨대 숫자 '12345'를 처리할 때 1, 2, 3, 4, 5로 각 숫자를 개별 토큰으로 처리하는 게 라마와 큐웬 방식이라면 네이버클라우드가 이를 동일하게 적용했다는 의미로 볼 수도 있다.

하지만 네이버클라우드는 "이는 업계 표준을 따른 것"이라고 해명했다.

AI 업계에서는 네이버의 라마와 알리바바의 토큰화 방식을 적용한 것을 두고 엇갈린 의견을 내놓고 있다.

한 AI 업계 관계자는 "AI가 문자를 이해하려면 문자를 벡터로 변환해야 하는데 토큰화에서 외국 모델 방식을 적용했다면 한국어 맥락을 국산 모델 방식만큼 반영하지 못할 수 있다"라고 말했다.

반면 다른 관계자는 "수학이나 과학 영역에서는 자릿수 단위로 자르는 게 (추론에) 유리하기 때문에 이러한 토큰화 방식을 적용하는 경우가 있다"고 설명했다.

한편 LG AI연구원, 업스테이지, SK텔레콤[017670], NC AI 등 여타 정예팀은 토큰화 작업에서 다른 모델 방식을 적용하지 않고 자체적인 고도화 작업을 거친 것으로 전해졌다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.