컨텐츠 바로가기

네이버 하이퍼클로바X 학습기준 깜깜···이전 버전은 블로그 학습 최다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
경향신문

하이퍼클로바X 로고. 네이버 제공.

<이미지를 클릭하시면 크게 보실 수 있습니다>


네이버가 생성형 인공지능(AI) 거대언어모델(LLM)인 ‘하이퍼클로바X’의 데이터 학습 기준을 공개하지 않고 있는 가운데, 하이퍼클로바X의 이전 버전인 하이퍼클로바는 블로그 사전 학습 비중이 가장 높은 것으로 나타났다.

2일 자연어처리기술(NLP) 학회 EMNLP에 2021년 채택된 하이퍼클로바 관련 연구 논문에 따르면, 하이퍼클로바는 5618억 토큰(데이터에서 의미를 가지는 최소한의 덩어리)을 사전 학습했다.

이 중 블로그(2736억 토큰)의 비중이 가장 높았다. 이어 카페(833억 토큰)와 뉴스(738억 토큰), 댓글(411억 토큰), 지식인 서비스(273억 토큰) 등의 순으로 나타났다.

토큰은 AI 학습용으로 모아둔 말뭉치(Corpus·특정한 목적을 가지고 수집한 텍스트 데이터)로, 문장을 만들어내는 데 쓰는 토큰이 많을수록 AI의 성능이 향상된다.

국립국어원이 만든 ‘모두의 말뭉치’처럼 이미 만들어진 AI 학습용 한국어 데이터 세트는 고품질 출처로 간주해 하이퍼클로바 학습 데이터에 포함됐다. 그 외 하이퍼클로바는 일부 전문 지식도 학습했다.

네이버에 따르면 이렇게 만들어진 한국어 데이터 세트는 1.96테라바이트(TB) 크기다. 한국어 위키피디아의 2900배로, 한국어 뉴스 50년치에 해당한다.

네이버 측은 “모든 AI는 계속 업데이트된 데이터를 학습하며 고도화되고 있다”며 “하이퍼클로바의 사전 학습 데이터를 하이퍼클로바X의 현재 학습 데이터로 간주할 수는 없다”고 설명했다. 이어 “하이퍼클로바X에서는 법률과 수학, 논문 등의 다양한 전문 데이터 확보를 지속해서 강화해 나갈 예정”이라고했다.

생성형 AI 개발 붐이 일면서 세계적으로 AI 학습을 위해 뉴스 등의 콘텐츠를 공짜로 사용하는 것에 대한 반발이 거세지고 있다. 이와 관련해 네이버는 “별도의 저작권 사용료에 대해선 논의하고 있는 단계가 아니다”라는 입장을 밝혀 논란을 빚고 있다.

네이버는 하이퍼클로바X가 약관에 근거해 뉴스와 블로그 등을 학습했다는 입장이다. 반면 AI를 개발하고 있는 글로벌 기업인 오픈AI와 구글 등은 뉴스 기사 사용 등에 관한 라이선스 계약을 잇따라 체결하고 있다.

김은성 기자 kes@kyunghyang.com

▶ 무슨 옷 입고 일할까? 숨어 있는 ‘작업복을 찾아라
▶ 뉴스 남들보다 깊게 보려면? 점선면을 구독하세요

©경향신문(www.khan.co.kr), 무단전재 및 재배포 금지

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.