(사진=셔터스톡) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
중국의 딥시크가 출시한 오픈 소스 모델 '딥시크-V3(DeepSeek-V3)'가 자신을 챗GPT라고 소개한 것으로 알려졌다. 즉, 모델 훈련을 위해 'GPT-4'가 생성한 데이터를 학습했다는 것으로 추정할 수 있다.
루카스 베이이라는 X(사용자)는 27일(현지시간) X를 통해 딥시크-V3가 답변 도중 자신이 오픈AI의 GPT-4 모델이라고 주장하는 장면을 공개했다.
또 딥시크 API에 관한 질문을 받으면 오픈AI API 사용법에 대한 지침을 제공하며, GPT-4와 똑같은 농담까지 내놓는 것으로 나타났다.
챗GPT와 딥시크-V3 같은 대형언어모델(LLM)은 수많은 데이터 학습으로 패턴을 찾아 예측하는 통계적 시스템이다. 만약 GPT-4가 생성한 텍스트를 포함한 데이터셋으로 학습했다면, GPT-4의 일부 출력을 기억하고 그대로 반복할 수 있다.
마이크 쿡 킹스칼리지 런던 연구원은 테크크런치와의 인터뷰에서 "다른 AI 시스템의 출력을 학습 데이터로 사용하는 것은 모델 품질에 매우 나쁠 수 있다"라며 "이로 인해 환각 현상이나 잘못된 답변이 발생할 수 있다"라고 경고했다.
합성 데이터를 통한 학습이 이른바 '모델 붕괴' 현상을 일으킬 수 있다는 지적이다. 그는 "복사본을 복사하는 것처럼 점점 더 많은 정보와 현실과의 연결을 잃게 된다"라고 설명했다.
https://twitter.com/giffmana/status/1872586401436627211
또 이런 행위는 서비스 약관에 해당한다. 오픈AI는 사용자들이 경쟁 모델을 개발하기 위해 출력을 사용하는 것을 금지하고 있다.
이에 대해 샘 알트먼 오픈AI도 X를 통해 쓴소리를 남겼다. "잘 작동하는 것을 복사하는 것은 쉽다. 하지만 새롭고 위험하고 어려운 일을 하는 것은 매우 어려우며, 이를 통해 연구자들이 많은 영광을 얻는 것은 당연하다"라는 내용이다. 그는 지난해 데브데이에서도 일부 스타트업들이 오픈AI 모델로 학습 데이터를 생성하는 관례를 잘 알고 있다고 밝힌 바 있다.
자신을 다른 모델로 소개한 사례는 더 있다. 구글의 '제미나이'도 자신을 앤트로픽의 '클로드'나, 바이두의 '웬신이얀(Wenxinyiyan)'이라고 주장해 커뮤니티에서 화제가 됐다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
또 AI 회사들이 웹에서 훈련 데이터를 수집하는데, 현재 웹은 AI로 생성된 콘텐츠로 넘쳐나고 있다는 지적이다. 2026년까지 웹의 90%가 AI로 생성될 수 있다는 추정도 나왔다. 이런 '데이터 오염'은 AI 성능을 떨어 뜨리는 이유가 될 수 있다.
하이디 클라프 AI 나우 최고 AI 과학자는 "굳이 비용 절감을 위한다면 오픈AI 모델의 지식을 '증류'하는 방식을 사용할 수 있다"라며 "그 경우에는 모델이 반드시 오픈AI의 출력을 연상시키는 결과를 보이지는 않을 것"이라고 말했다.
한편, 딥시크-V3는 지난 26일 출시된 6710억개의 매개변수를 가진 오픈 소스 역대 최대 규모의 LLM이다. 메타의 '라마 3.1 405B', 알리바바의 '큐원 2.5 72B'와 같은 기존 오픈 소스 모델들을 뛰어넘는 성능을 갖췄으며, 오픈AI의 'GPT-4o'조차 능가하는 벤치마크 성적을 거둔 것으로 알려져 화제를 모았다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.