[박찬 기자]
딥시크가 오픈 소스 추론 모델 'R1'의 최신 업데이트 버전을 공개한 데 이어, 하루 만에 세부 기술 사항을 공개했다. 복잡한 추론 작업에서 오픈AI의 'o3'와 구글의 '제미나이 2.5 프로'와 비슷한 수준의 성능을 갖췄다는 내용이다.
딥시크는 29일(현지시간) X(트위터)를 통해 기존 R1 모델보다 성능이 향상된 '딥시크-R1-0528'의 세부 사항을 소개했다.
이번 R1-0528 버전이 수학, 과학, 비즈니스, 프로그래밍 등 고난이도 추론 과제에서 대폭 강화된 성능을 제공한다고 밝혔다.
(사진=셔터스톡) |
딥시크가 오픈 소스 추론 모델 'R1'의 최신 업데이트 버전을 공개한 데 이어, 하루 만에 세부 기술 사항을 공개했다. 복잡한 추론 작업에서 오픈AI의 'o3'와 구글의 '제미나이 2.5 프로'와 비슷한 수준의 성능을 갖췄다는 내용이다.
딥시크는 29일(현지시간) X(트위터)를 통해 기존 R1 모델보다 성능이 향상된 '딥시크-R1-0528'의 세부 사항을 소개했다.
이번 R1-0528 버전이 수학, 과학, 비즈니스, 프로그래밍 등 고난이도 추론 과제에서 대폭 강화된 성능을 제공한다고 밝혔다.
전작과 마찬가지로 MIT 라이선스 하에 공개, 상업적 사용과 커스터마이징이 자유롭게 허용된다. 오픈 소스 모델 가중치는 허깅페이스를 통해 배포되며, 로컬 배포 및 API 통합을 위한 상세한 문서도 함께 제공된다.
기존 딥시크 API 사용자들은 추가 비용 없이 자동으로 R1-0528으로 업데이트된다. API 사용 요금은 입력 기준으로 100만 토큰당 0.14달러, 할인 시간대에는 0.035달러, 출력은 100만 토큰당 2.19달러다. 개인 사용자는 공식 웹사이트를 통해 휴대폰 또는 구글 계정 인증 후 무료로 체험 가능하다.
가장 강조한 점은 글 작성이나 요약과 같은 상황에서 환각이나 오해의 소지가 있는 출력이 약 45~50% 감소했다는 것이다.
성능 향상 외에도 개발자나 연구자 편의를 위한 기능 개선이 눈에 띈다. JSON 출력, 함수 호출 기능이 추가돼 애플리케이션 통합이 쉬워졌고, 프론트엔드 상호 작용도 매끄럽고 효율적으로 개선됐다. 또 이전에는 특정 토큰을 사용해야 했던 '사고 모드(Thinking Mode)'가 시스템 프롬프트 방식으로 변경돼 배포가 간편해졌다.
딥시크는 후처리 단계에서의 알고리즘 최적화와 컴퓨팅 자원의 확장을 통해 성능을 향상했다고 밝혔다.
https://twitter.com/deepseek_ai/status/1928061589107900779
벤치마크에서는 기존 버전보다 대폭적인 점수 상승으로, 오픈AI의 'o3'나 구글의 '제미나이 2.5 프로' 등 첨단 프론티어 모델을 따라잡았다고 밝혔다.
수학 능력을 테스트하는 'AIME 2025'에서는 정확도가 70%에서 87.5%로 올라갔으며, 평균 사용 토큰 수도 1만2000에서 2만3000으로 증가해 깊이 있는 사고 과정을 보여준다고 전했다.
코딩 테스트인 '라이브벤치코드(LiveCodeBench)'에서는 63.5%에서 73.3%로, 가장 높은 난이도를 자랑하는 '인류의 마지막 시험(Humanity's Last Exam)'에서는 8.5%에서 17.7%로 성능이 두배 이상 향상됐다.
이를 통해 o3나 제미나이 2.5 프로 등과 경쟁 가능한 수준에 도달했다. 지난 1월 R1이 출시된 뒤 오픈AI와 구글은 새 모델을 내놓으며 잇달아 이를 능가했다고 강조한 바 있다.
이날 딥시크는 R1-0528에서 생성된 텍스트를 사용해 '큐원3-8B'를 미세조정한 증류 모델 '딥시크-R1-0528-큐원3-8B'도 공개했다.
이 모델은 큐원3-8B보다 10% 더 높은 성능을 보이며, '큐원3-235B-싱킹'과 유사한 수준을 달성했다. 특히 16GB VRAM이 있는 단일 GPU에서 실행 가능해 하드웨어 부담이 적고, 학술 및 산업 현장에서 활용성이 높을 것으로 기대된다고 밝혔다.
그러나 성능 향상과는 별개로, 표현의 자유와 관련된 민감한 질문에 대한 검열 우려도 제기됐다.
AI 응답 비교 플랫폼 스피치맵을 운영하는 익명의 개발자 "xlr8harder"는 딥시크-R1-0528을 테스트한 결과, 이전 버전보다 중국 정부가 민감하게 여기는 주제에 대해 현저히 더 많은 제한을 두고 있다고 주장했다. 그는 "R1-0528은 지금까지 출시된 딥시크 모델 중 중국 정부에 대한 비판을 가장 억제하는 모델"이라며 "논쟁적인 표현의 자유 주제에 있어 가장 검열된 딥시크 모델"이라고 평가했다.
일부 전문가들은 이번에 공개된 R1-0528이 R1 시리즈의 마지막 모델일 수 있으며, 딥시크가 조만간 더 발전된 성능을 갖춘 차세대 모델 'R2'를 선보일 것으로 전망했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
