한국어 특화 평가지표 공개
오픈소스 연구팀 ‘해례’와 협력
총 3만5030개 전문가 문항
객관식 문제 풀이로 평가
클로바X 55.21점으로 1위
GPT-4, 제미나이 프로 순
오픈소스 연구팀 ‘해례’와 협력
총 3만5030개 전문가 문항
객관식 문제 풀이로 평가
클로바X 55.21점으로 1위
GPT-4, 제미나이 프로 순
네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 ‘K-MMLU’를 선보였다고 21일 밝혔다. 네이버클라우드는 이를 위해 오픈소스 언어모델 연구팀인 ‘해례’와 협력했다. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 ‘K-MMLU’를 선보였다고 21일 밝혔다. 네이버클라우드는 이를 위해 오픈소스 언어모델 연구팀인 ‘해례’와 협력했다.
MMLU(다중작업언어이해)를 기반으로 한국어에 특화된 지식을 평가할 수 있는 것이 이번 모델의 특징이다. MMLU는 AI 모델의 지식과 문제 해결 능력을 수학, 물리학, 역사 등 57개 주제에서 평가하는 시험이다. 오픈AI GPT-4, 구글 제미나이 등 역시 자사 모델의 우수성을 입증하는 근거로 사용 한 바 있다.
K-MMLU는 총 3만5030개 전문가 수준 다지선다형 문제로 구성돼 있다. 인문학부터 STEM(과학·기술·공학·수학)까지 45개 과목에 달한다. 가장 큰 특징은 영어 데이터를 번역한 테스트가 아니라는 점이다. 한국 시험에서 수집된 문제들로 구성돼 있다. 따라서 한국어의 언어적·문화적 요소를 포착한다. 하이퍼클로바X는 55.21 점, 제미나이 프로는 42.94점, GPT-4는 54.89점을 각각 받았다.
하이퍼클로바X가 한국 문화나 법·제도에 관한 질문에서 더 정확한 답변을 제공한다는 것을 뜻한다. 특히 ‘한국채택국제회계기준(K-IFRS)하에서 금융자산으로 분류되지 않는 것은?’이나 ‘한국 간호사 윤리강령의 항목에 대한 설명으로 옳은 것은?’ 같은 질문에 대한 답변 능력이 더 우수하다.
하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 “종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다”면서 “K-MMLU는 한국의 사회문제, 역사문제 등 ‘한국형’ 지식 추론 능력을 평가할 수 있다”고 설명했다. 한국어 기량에 대한 평가는 늘어나는 추세다. 앞서 AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 함께 ‘오픈 Ko-LLM 리더보드’를 구축했다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.