네이버클라우드, 독자 AI 2차평가 진출 고배 “독자성 요건 부족”[일문일답] : zum 뉴스

[디지털데일리 오병훈기자] 정부 ‘독자 AI 파운데이션 모델’ 프로젝트 2차 평가 진출 팀이 가려졌다. 1차 평가 과정에서 ‘독자성’ 논란 중심에 섰던 네이버클라우드가 고배를 마셨다. 정부에서는 독자성 기준을 기술적·정책적·윤리적 세가지 측면에서 종합 평가해 결정한 사항이라고 밝혔다. 업스테이지와 SK텔레콤 모델을 두고도 독자성 논란이 일었지만 평가 위원은 결정적인 사유는 아니라고 본 결과다.

15일 과학기술정보통신부는 독자 AI 파운데이션 모델(독파모) 1차 평가 결과를 발표했다. 2차 평가 진출 정예팀은 LG AI 연구원, SK텔레콤, 업스테이지 컨소시엄이다. NC AI 정예팀은 점수 평가에서, 네이버클라우드 정예팀은 독자성 평가에서 요건을 충족하지 못해 2차 평가 진출에 실패했다.

네이버클라우드와 업스테이지 SK텔레콤 정예팀 모두에 대해 오픈소스 활용 의혹이 제기됐지만 그 결과는 달랐다. 나머지 두개 정예팀과 달리 네이버클라우드 정예팀 경우 기술보고서에서 중국 모델의 일부 기능(인코더)를 활용한 점이 드러나면서 이같은 결과로 이어졌다는 게 정부 측 설명이다.

네이버클라우드는 자체적으로 개발한 독자 인코더도 보유 중이며 성능 확인 과정에서 일부 활용했다고 해명했다.

이날 오후 열린 브리핑에서 김경만 인공지능정책실장은 “업스테이지와 SK텔레콤 모두 (독자성 관련) 논란이 있었지만 평가위원에서 절대적인 하자로 평가하지 않은 것으로 보인다”고 설명했다.

다음은 류제명 과기정통부 2차관, 김경만 인공지능정책실장, 정해동 정보통신기획평가원 AI PM과 일문일답.

Q. 독자성 평가와 관련해 세가지 측면(기술·정책·윤리)에서 설명했다. 이 기준을 기반으로 네이버 클라우드가 탈락을 하게 된 이유를 좀 더 구체적으로 말해달라.

A.(류제명 2차관) 네이버클라우드 기술보고서 상 비디오·오디오 인코더가 문제됐다. 기술적·정책적·윤리적 측면에서 세가지로 세분화해 평가를 분석해 봤을 때 외부 모델 가중치를 그대로 가져다 쓴 부분에 대해서 ‘기술적 측면’에서의 문제가 있다. 처음부터 스스로 직접 설계하고 학습하는 기준을 충족하지 못한 점에서 이런 결과가 나왔다. 평가위원들도 그 부분들에 대해서는 독파모가 지향하는 기술적 요건이 미흡했다고 지적했다.

Q. 네이버클라우드의 경우 인코더를 사용하는 것은 괜찮지만 가중치를 그대로 쓴 게 문제라고 했다. 그럼 인코더는 외부의 것을 사용해도 괜찮은 것인가.

A. (정해동 정보통신기획평가원 AI PM) 외부 인코더를 활용하는 것들이 개발 단계에서 일반적으로 활용하는 방법이다. 인코더를 활용했을 때 가중치를 (새롭게) 업데이트할 수 있는 형태가 아니라 고정돼(프로즌돼) 있는 형태였기 때문에 외부의 인코더와 가중치를 그대로 활용한 것이라 볼 수 있고 이것은 독자 파운데이션 모델로 인정하기 어렵다는 내부 판단이 있었던 것으로 보인다.

Q. “인코더 활용은 되지만 가중치 활용은 안 된다”는 규정과 같이 독자성 판단에 대한 명확한 가이드라인을 제공하는 것을 고려하고 있나.

A. (류제명 2차관) 글로벌 시장에서 오픈소스를 활용하지 않는 기업은 없다고 봐도 무방하다. 오픈소스 활용이 죄악시된다는 것은 아니다. 개발 단계별로 오픈소스 라이선싱 조건에 따라서 적절하게 활용하는 것은 AI 생태계에서 당연한 것이다.

다만 지금 프로젝트 취지에 비춰보면 스스로 모델도 설계해 보고 가중치가 초기화된 상태에서 학습 경험을 쌓아보자는 것이 중요하다. 그래야 앞으로 오픈소스를 활용하더라도 더 경쟁력 있는 AI 모델을 만들 수 있다는 판단이다. 어떻게 보면 굉장히 짧은 기간에 이룩한 성과다.

평가 기준을 마련하는 과정에서도 사업자와 논의가 진행됐다. 상호 협의 하에 상호 도출할 수 있는 공감대에 기반해 평가가 이뤄졌다.

Q. 네이버클라우드만 프롬스크래치(자체개발) 논란이 있었던 것은 아니다. 해당 기준이 다른 정예팀에도 동일한 잣대로 적용이 됐나. 이 부분에 대해서 평가위원들 간 이견은 없었는지 만장일치 의견이 맞았는지 궁금하다.

A. (김경만 인공지능정책실장) 독자성 기준 중 ‘윤리적인 기준'을 언급했다. 공개된 오픈소스를 쓸 때도 당당하게 어떻게 썼고 어떤 부분을 고쳤는지 검증하는 것이 중요하다. 그런 측면에서 본다면 업스테이지의 레퍼런스 비위 언급 문제도 사실상 기준에 부합하지 않다고 볼 수 있다.

하지만 그것이 당락을 결정할 정도의 절대적인 하자는 아니라는 게 전문가 평가다. 물론 SK텔레콤도 유사한 측면에서 지적이 있었지만 절대적인 평가 기준이 되지는 못했다. 네이버클라우드 측에서 논란 이후 소명서를 보내 왔다. 이미 평가가 진행 중인 상황에서 소명서를 보내왔기 때문에 이를 반영하지는 않기로 했다. 절차가 끝난 이후 소명을 평가에 반영한다는 것은 절차적 공정성 문제가 발생할 수 있다.

네이버클라우드 측에서는 (외부 인코더가 아닌) 자체 보유한 인코더도 보유하고 있다고 해명했다. 또 지금 사용한 인코더는 모델 요소 중 차지하는 비중이 상당히 낮다는 취지로 설명했으나 여러 견해 차이가 있었고 전문가들이 보는 관점도 다른 부분도 있어서 종합적으로 판단을 하게 된 것이다.

Q. 추가 1개 팀 모집을 할 때 선발 기준이나 심사 시기는?

A.(류제명 2차관) 최초 프로젝트를 설계했을 때 과정을 참조해서 최대한 빨리 행정절차를 마무리할 예정이다. 이번에 2단계에 참여하지 못한 기업들 뿐 아니라 역량 있는 모든 기업들에게 기회를 줄 예정이다. 임차된 GPU를 참여사에 제공하고 있는데 지금 4개가 아닌 3개 기업만 평가에 임하게 될 경우 임차한 GPU 자원 휴면 문제가 발생한다.

일단 3개 기업은 바로 2차 평가를 위해 GPU를 활용할 수 있도록 하고 빠르게 1개 추가 참여 컨소시엄을 선발해 이번에 선정된 3개 기업과 동일한 조건에서 할 수 있도록 설계하고 있다.

Q. 추가 1개 정예팀 선발에서 네이버클라우드나 엔씨 AI도 경쟁에 참여할 수 있다고 했는데 다음 라운드에서 페널티는 없나.

A.(류제명 2차관) 소수 경쟁 압축 방식으로 하자는 취지는 치열한 경쟁 환경을 만들어서 짧은 기간에 많은 성과를 낼 수 있는 구도로 설계를 한 것이다. 국내 AI 생태계에 모든 기업들이 자극을 통해서 성장하도록 하자는 취지에서 진행 중인 프로젝트다. 1라운드 결과는 전혀 영향을 받지 않도록 새롭게 출발하고 재도전을 할 수 있도록 하자는 것이다.

Q. 정부는 당초 패자부활전이라는 염두하지 않고 있다는 메시지를 던졌다. 새롭게 1개 정예팀을 추가로 선발하는 것은 2차 평가에 진출한 정예팀 입장에서는 형평성 논란이 있을 수 있다. 이점에 대해 어떻게 보고 있나.

A. (류제명 2찬관) GPU 자원과 예산 행정 절차 등 고려해야 할 부분이 많다. 한정된 자원을 적절한 절차를 밟아 지원하는 과정이기 때문에 어떤 방식으로든 참여 기업을 늘리고 GPU를 많이 써볼 수 있게 유도하기 위함이다.

‘패자부활전’ 용어를 쓰는 대신에 ‘재도약’ ‘추격 프로그램’ 이렇게 봐줬으면 한다. GPU 자원을 최대한 많은 기업들이 활용해 볼 수 있도록 하는 게 중요하다.

Q. 1차 평가의 경우 벤치마크와 전문가, 사용자 평가로 진행했는데 2차 평가도 동일한 방식으로 진행되는 건지 아니면 다른 기준을 추가할 것인지 궁금하다.

A. (김경만 인공지능정책실장) 평가 기준은 평가를 받는 업체와 협의를 하면서 만들어왔다. ‘벤치마크’와 ‘전문가 평가’ ‘실사용자 평가’ 세가지다.

전문가 평가의 경우 결국 객관적인 성능에 대한 평가다. 기술적 독창성이라든지 실제 기술력을 확보 등 전문적인 분야에 초점을 둔 것이다. 사용자 평가는 실제 AI를 사용하는 현업 관계자가 유용성을 평가한다. AI 파라미터 크기와 효율성 등 현장에서 얼마나 잘 쓸 수 있는지 활용성을 중요하게 본다.

이 세 가지 큰 틀에서 변화는 없을 것이다. 다만 프롬스크래치에 대한 기준은 좀 더 학계나 업계 그리고 전문가분들의 의견을 수렴해 차등, 배점을 구체화시키겠다. 문제가 발생하지 않도록 조치하겠다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

이 기사의 카테고리는 언론사의 분류를 따릅니다.