업스테이지, 공개 검증 통해 中 LLM 도용 의혹 반박..."허위 사실 강력 대응" : zum 뉴스

[황치규 기자]

[사진:업스테이지]

[디지털투데이 황치규 기자]정부 독자 파운데이션 모델 사업에 선정된 솔라 오픈100B(매개변수 1000억개)이 중국 업체 LLM을 복사해 파인튜닝(미세조정)한 것 아니냐?는 문제가 제기된 것과 관련 개발사인 업스테이지가 사실과 다르다는 점을 분명히 하고 나섰다.

김성훈 업스테이지 대표는 2일, 강남오피스에서 업계 및 정부 관계자 70여 명 대상 현장 설명을 통해 해당 주장이 사실이 아님을 증명하고 사과를 촉구했다.

이번 행사는 유튜브로도 생중계돼 약 2000여명이 동시 시청했다. 이 자리에서 김 대표는 모델 학습 로그와 체크포인트 등 개발 관련 주요 데이터를 모두 공개했다.

그는 "솔라 오픈 100B는 가중치를 처음부터 자체 학습한 프롬 스크래치(from scratch, 처음부터 자체 개발했다는 의미) 모델"이라며 "프롬 스크래치에서도 모델 구조 아이디어나 인퍼런스 코드 스타일을 참조하는 것은 허용된다. 하지만 학습된 다른 모델 가중치를 그대로 가져오면 프롬스크래치가 아니다"고 잘라 말했다. LLM에서 가중치(weight)는 해당 정보가 얼마나 중요한지를 나타내는 숫자다.

김 대표는 레이어놈(LayerNorm: Layer Normalization) 유사성을 근거로 타 모델 가중치를 재사용했다는 주장도 통계적 착시에 불과하다고 설명했다.

레이어놈은 AI 모델 학습이 안정적이고 빠르게 진행되도록 데이터 값들을 일정한 범위로 고르게 펴주는 작업을 의미한다. 김 대표는 "문제로 제기된 해당 구간은 모델 전체 약 0.0004%에 불과한 미세 영역으로, 오히려 솔라 오픈 99.9996%가 타 모델과 완전히 상이함을 보여주는 지표"라고 강조했다.

LayerNorm 유사성 판단에 사용된 '코사인 유사도' 역시 적절한 비교 기준이 아니라고 받아쳤다. 코사인 유사도는 벡터 방향만 비교하는 단순 지표로, 통상 언어모델들 LayerNorm은 비슷한 구조와 특성을 공유하기 때문에 독립적인 모델 간 유사도가 높은 값으로 나오는 것이 오히려 자연스러운 현상이라는게 김 대표 설명이다.

김 대표는 솔라 오픈이 타 모델 토크나이저를 그대로 사용했다는 주장 역시 사실과 다르다고 반박했다. 그는 "해당 모델 어휘수는 약 15만 개, 솔라 오픈은 19만6000개며 실제 공통 어휘는 약 8만개(41%)에 불과하다. 동일 계열 토크나이저라면 일반적으로 70% 이상 어휘가 중복되므로, 이는 솔라 오픈이 독자적으로 구축한 별개의 토크나이저임을 입증하는 정량적 근거"라고 말했다.

특정 모델과 구조·코드가 유사하다는 지적 역시 기술적 현실과 전혀 맞지 않는 주장이다. 업스테이지를 포함한 주요 오픈소스 LLM 개발사들은 학습용 코드를 외부에 공개하지 않는다. 공개된 모델 카드나 구조 설명을 참고해 연구 방향의 아이디어를 얻는 것은 가능하지만, 접근 자체가 불가능한 학습 코드를 재사용해 모델을 개발한다는 주장은 기술적으로 성립할 수 없다는 것이 업계 공통 인식이란게 김 대표 설명이다.

김 대표는 특정 모델 소스코드를 가져와 라이선스를 조작했다는 의혹도 사실과 다르다고 강조했다. 업스테이지는 더 많은 개발자들이 솔라 오픈을 쉽게 써볼 수 있도록 인퍼런스 코드를 공개했으며, 이 과정에서 서빙 호환성을 높이기 위해 허깅페이스 공개 오픈소스 코드베이스 일부를 활용했다. 이는 누구나 사용할 수 있는 '아파치 2.0(Apache 2.0)' 라이선스에 따라 통상적으로 사용되는 것으로, 해당 라이선스 출처를 정확히 표기하기 위해 문구를 업데이트한 것이라고 설명했다.

이번 논란은 1일 AI 스타트업 '사이오닉에이아이 고석현 대표가 개발자 플랫폼인 깃허브를 '솔라 오픈 100B'가 중국 지푸AI 'GLM-4.5-에어(Air)' 모델에 기반을 둔 파생 모델이라고 의혹을 제기하며 불거졌다.

그의 문제 제기는 독자 파운데이션 모델 개발 사업에 참여하는 정예팀 5곳들에 대한 1차 평가 결과가 1월 중 공개될 예정인 가운데 것이어서 더욱 관심을 끌었다. 1차 평가를 통해 1개 업체가 탈락하기 때문에, 업스테이지도 전사 차원에서 적극 대응에 나섰다.

AI 커뮤니티에서도 고석현 대표 글에 대해 솔라 오픈100B가 GLM-4.5-Air에서 파생됐다고 보기엔 설득력이 떨어진다는 반응들이 많았다. 카카오 미신러닝 연구원인 케빈 고(Kevin Ko)는 Solar-Open-100B는 GLM-4.5-Air에서 파생되지 않았다는 글을 올렸다.

김성훈 대표는 "의견을 주고 받는 건강한 토론은 환영하나 이와 같은 허위 사실을 단정적으로 전달하는 행위는 AI3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력 의미를 심각하게 훼손하는 것"이라며, "앞으로도 업스테이지는 투명한 기술 공개를 바탕으로 글로벌 최고 수준의 기술력을 증명하고 국내 AI생태계 확장에 힘쓰겠다"고 말했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.