국가대표 인공지능(AI)을 둘러싼 '프롬 스크래치' 논란이 업스테이지에 이어 네이버까지 번지면서, 어디까지를 독자 기술로 봐야 하는지를 둘러싼 기준 부재가 수면 위로 떠올랐다. 해외 오픈소스 인코더 활용을 두고 기술 주권을 훼손한 것인지, 아니면 합리적 선택인지를 두고 해석이 엇갈리지만, 정부가 제시한 원칙은 여전히 추상적이다. 반복되는 논란은 결국 '프롬 스크래치'라는 말이 정책 구호로만 존재해 왔음을 드러내고 있다.
6일 <메트로경제 신문> 취재에 따르면, 업스테이지에 이어 네이버에도 '프롬 스크래치' 논란이 일면서 국가대표 AI에 일정한 프롬 스크래치 기준을 설정해야 한다는 지적이 나오고 있다.
AI 개발에서 프롬 스크래치는 기존에 만들어진 모델이나 데이터 가중치를 재활용하지 않고, 모델 설계부터 사전 학습(Pre-training)까지 모든 과정을 처음부터 독자적으로 수행하는 것을 의미한다.
정부가 이 방식을 고집하는 이유는 '기술 주권' 때문이다. 해외 모델을 미세 조정(파인튜닝)해서 쓰다가 원저작권자가 라이선스를 취소하거나 가격을 올리면 대응할 방법이 없기 때문이다. 따라서 프롬 스크래치는 소버린 AI 구현을 위한 필수 조건으로 꼽힌다.
지난 5일 네이버클라우드의 멀티모달 AI 모델인 '하이퍼클로바X 시드 32B 싱크'가 중국 알리바바의 오픈소스 모델 '큐웬(Qwen)'과 유사하다는 분석이 나오며 논란이 시작됐다. 비전·오디오 인코더의 가중치(웨이트)가 큐웬과 매우 높은 상관계수를 보였기 때문이다.
이에 대해 네이버클라우드는 외부 기술 사용을 인정하면서도 "전략적 선택"이라고 선을 그었다. 인코더는 시각 정보를 신호로 변환하는 '시신경'일 뿐, 사고를 담당하는 핵심 '두뇌'는 100% 자체 기술로 개발했다는 논리다. 이미 표준화된 고성능 모듈을 써서 효율을 높였을 뿐, 기술력이 부족해서가 아니라는 해명이다.
하지만 업계에서는 모델 성능의 10% 이상을 차지하는 인코더를 가져다 쓴 것을 두고 '프롬 스크래치' 원칙에 어긋난다는 비판이 여전하다.
프롬 스크래치 논란은 한 번 더 있었다. 네이버에 앞서 지난 1월 2일, 업스테이지 역시 비슷한 논란을 겪었다. 자사 모델 '솔라 오픈 100B'가 중국 기업의 모델을 도용했다는 의혹이 제기된 것이다.
업스테이지는 숨지 않고 정면 돌파를 택했다. 논란 발생 하루 만에 개발 로그와 체크포인트 등 핵심 데이터를 모두 공개하는 현장 설명회를 열었다. 김성훈 업스테이지 대표는 유사성 지표로 제시된 데이터가 전체의 0.0004%에 불과한 통계적 착시임을 증명했고, 결국 의혹을 제기했던 측의 사과와 게시글 삭제를 끌어내며 논란을 잠재웠다.
이처럼 문제가 반복해서 불거지는 것은 '어디까지 직접 만들어야 프롬 스크래치인가'에 대한 기준이 명확하지 않기 때문이라는 지적이다.
과학기술정보통신부는 독자 AI 모델 프로젝트를 시작하면서 "해외 모델 미세조정(파인튜닝) 등으로 개발한 파생형 모델이 아닌 모델의 설계부터 사전학습 과정 등을 수행한 국산 모델"이라며 "타사 모델에 대한 라이선싱 문제가 없을 것"을 조건으로 내건 바 있다.
그러나 오픈소스 인코더를 활용하는 행위가 이 원칙에 위배되는지에 대해서는 구체적인 가이드라인을 주지 못하고 있다.
결국 AI 업계에서는 자체적인 기준 정립 시도가 이어지고 있다. 이승현 포티투마루 부사장은 최근 깃허브에 올린 게시물에서 "우리는 소모적인 논쟁을 넘어 '무엇이 진정한 기술 주권인가'에 대한 명확한 기준을 정립해야 한다"면서 그는 AI 모델의 주권 수준을 판별하는 '7단계 등급 체계'를 제안하기도 했다. 이 부사장은 주권·통제 수준이 없는 빅테크 모델 API 호출인 0단계부터 국가 안보가 보장되는 6단계까지 나눴다. 그러면서 그는 4단계부터 AI에 대한 통제권이 확보된다며 이 단계는 해외 모델 구조를 참조하되 가중치는 100% 자체 학습을 해야 한다고 기술했다.
그는 "이 기준은 단순한 성능 평가가 아닌 데이터의 기원과 통제권, 구조 및 코드의 수정 권한, 국가 안보적 가치와 인프라 자립도로 구성된다"고 설명했다.
