컨텐츠로 건너뛰기
검색
조선일보 언론사 이미지

[단독] 국가대표 AI, 네이버 맞춤형 평가 ‘공정성’ 논란

조선일보 김강한 기자
원문보기

[단독] 국가대표 AI, 네이버 맞춤형 평가 ‘공정성’ 논란

속보
영국도 테헤란 주재 대사관 임시 폐쇄.. 인력 철수
공통 외 별도 선택 시험 포함
정부가 ‘국가대표 AI(인공지능)’ 1차 평가에서 공통 벤치마크(표준 시험) 외에 개별 기업이 별도로 선택한 벤치마크도 포함한 것으로 알려지면서 공정성 논란이 일고 있다. 모두가 같은 시험을 치르는 구조가 아니라, 공통 시험 점수에 더해 ‘각자 고른 추가 시험’ 점수까지 합산하는 방식이어서 유리한 시험을 골라 점수를 끌어올릴 수 있다는 지적이 나온다.

13일 AI 업계에 따르면, 과학기술정보통신부가 꾸린 전문 심사위원단은 이달 초부터 업스테이지·SK텔레콤·NC AI·LG AI연구원·네이버클라우드 등 ‘국가대표 AI’ 5개 팀이 제출한 AI 모델 성능 평가를 진행했다. AI 모델의 성능을 객관적으로 비교하려면, 모두가 같은 문제를 풀도록 설계된 표준 시험인 공통 벤치마크가 필요하다. 그런데 다른 4팀이 텍스트 중심의 LLM(대형 언어 모델)을 개발한 것과 달리, 네이버클라우드는 이미지·영상·음성 등도 인식하고 처리하는 이른바 ‘옴니모달 모델’을 개발하면서 공통 벤치마크 적용이 어렵게 됐다. 네이버 측이 LLM과 옴니모달을 같은 잣대로 평가하는 것은 불합리하다고 주장했기 때문이다. 결국 공통 벤치마크 외에 각 팀이 개별 벤치마크 2개씩을 선택해 평가에 반영하기로 합의한 것으로 전해졌다.

네이버는 개별 벤치마크로 ‘텍스트 VQA’와 ‘DocVQA’를 선택한 것으로 전해졌다. 텍스트 VQA는 사진 속 글자(간판·티셔츠 문구 등)를 읽고 질문에 답하는 능력을, DocVQA는 영수증·계약서 같은 문서 이미지(스캔본)를 읽고 핵심 정보를 찾아 질문에 답하는 능력을 평가한다.

옴니모달에서 눈 역할을 하는 ‘비전 인코더’의 역할이 필수적인 평가 항목이다. 비전 인코더는 외부 정보(이미지·영상)를 AI가 이해할 수 있도록 디지털 신호로 바꿔주는 역할을 하는데, 네이버는 중국 알리바바의 ‘큐원(Qwen)2.5 ViT’를 비전 인코더에 사용해 논란이 되고 있다. AI 전문가들은 네이버가 큐원의 비전 인코더를 도입하면서 가중치(학습이 완료된 지능)까지 재사용했다고 보고 있다. 이에 일각에서는 개별 벤치마크 점수를 합산하면 네이버에 유리한 불공정한 평가가 우려된다고 지적한다. AI 업계 관계자는 “국가대표 AI 프로젝트의 목표는 독자 AI 모델 성능을 측정하는 것인데, 네이버의 경우 큐원의 ‘비전 인코더’ 성능 측정이 큰 비중을 차지한다”며 “이는 사실상 중국 AI 기술을 평가하는 것과 다름없어 불합리하다”고 했다.

정부는 이번 국가대표 AI를 추진하면서 ‘프롬 스크래치’(아무것도 없는 상태에서 처음부터 개발)로 AI 파운데이션 모델을 개발해 ‘독자적(소버린) AI’를 확보하겠다는 목표를 강조해 왔다. 이 때문에 업계 안팎에서 “핵심 부품에 해외 모듈을 가져다 쓴 뒤, 그 성능이 크게 반영되는 시험 점수까지 합산하는 방식이 과연 평가 취지에 맞느냐”는 목소리도 나온다.

[김강한 기자]

- Copyrights ⓒ 조선일보 & chosun.com, 무단 전재 및 재배포 금지 -