"딥시크, 'R1' 최신 버전 훈련 위해 '제미나이' 복제한 듯" : zum 뉴스

[박찬 기자]

(사진=셔터스톡)

딥시크가 최근 공개한 최신 추론 모델 'R1-0528'이 뛰어난 수학·코딩 성능으로 주목받는 가운데, 구글의 '제미나이' 모델 데이터를 사용해 훈련했다는 의혹이 제기됐다. 오픈AI의 '증류(distillation)'에 이어, 잇따른 베끼기 의혹이다.

3일(현지시간) 테크크런치에 따르면, 멜버른 기반 개발자 샘 페이크는 X(트위터)에 올린 글을 통해 딥시크의 R1-0528 모델이 구글의 제미나이 2.5프로와 유사한 표현과 어휘를 선호한다고 주장하며 관련 증거를 공개했다.

또 AI 자유 표현 평가 도구 '스피치맵(SpeechMap)'를 개발한 익명 개발자도 "딥시크 모델의 사고 과정이 마치 제미나이의 사고 과정을 복제한 듯하다"라고 말했다.

이는 결정적인 증거는 아니지만, 딥시크가 경쟁사의 AI 모델 데이터를 무단으로 활용했다는 의혹은 처음이 아니다. 지난해 12월에는 '딥시크-V3'가 자신을 '챗GPT'라고 지칭하는 사례가 빈번히 발생해, 오픈AI의 채팅 로그를 훈련 데이터로 사용한 것 아니냐는 논란이 일기도 했다.

https://twitter.com/sam_paech/status/1928187246689112197

앞서 올해 초 오픈AI는 딥시크가 증류 기법을 사용한 정황을 포착했다고 밝혔다. 증류는 고성능 AI의 출력 데이터를 이용해 소형 모델을 훈련하는 방식이다.

또 블룸버그는 오픈AI의 투자사인 마이크로소프트(MS)가 2024년 말 오픈AI 개발자 계정을 통해 대량의 데이터가 유출된 것을 탐지했으며, 해당 계정들이 딥시크와 연관돼 있다고 보도했다.

증류 자체는 AI 업계에서 드물지 않은 기법이지만, 오픈AI는 자사 출력물을 기반으로 경쟁 모델을 개발하는 행위를 명시적으로 금지하고 있다.

AI 전문가들은 이런 상황이 'AI 슬롭(slop)' 현상 때문에 일어난 것으로도 보고 있다. AI로 생성된 콘텐츠가 웹에 범람하면서, 훈련 데이터에서 AI 출력물을 완전히 걸러내는 것이 점점 어려워지고 있다는 것이다.

실제로 콘텐츠 농장들이 클릭 유도를 위해 AI로 작성한 글을 무차별적으로 배포하고, 레딧이나 X 등 주요 플랫폼에도 AI 생성 콘텐츠가 넘쳐나고 있다. 즉, 딥시크 모델이 원하지 않은 상황에서 제미나이가 작성한 콘텐츠를 대량으로 학습할 가능성이 크다는 것이다.

그러나 네이선 램버트 AI2 연구원는 "딥시크가 GPU는 부족하고 자금이 풍부한 상황이라면, 최고 성능의 API 모델에서 대량의 합성 데이터를 뽑아 훈련에 쓸 가능성은 충분하다"라고 말했다.

이런 상황을 방지하기 위해 주요 AI 기업들도 보안 조치를 강화하고 있다.

오픈AI는 4월부터 고급 모델에 접근하려면 지원하는 국가 중 한 곳에서 발급한 정부 발행 신분증을 통한 인증 절차를 거치도록 했고, 중국은 지원 국가에서 제외했다. 구글과 앤트로픽도 각각 개발자 플랫폼에서 모델의 사고 과정을 요약 처리해 경쟁사가 데이터를 추출해 훈련에 활용하기 어렵게 하고 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.