딥시크 '확장 가능한 조건부 검색을 통한 조건부 메모리: 대형 언어모델 희소성의 새로운 차원' 논문 초록 캡쳐 |
딥시크가 AI(인공지능)의 추론 구조를 효율화하는 기술을 논문 발표를 통해 공개했다. 학습 능력 극대화 기술 발표에 이어 2주만에 발표된 신기술이다. 최소한의 하드웨어 투입만으로도 오픈AI, 구글 못지 않은 성능을 내려는 딥시크의 개발 전략이 한층 강화된 셈이다. 딥시크 첫 AI 모델 출시 1주년 즈음에 내놓을 차세대 AI 모델에 이 같은 기술이 대폭 반영될 것이란 관측이 나온다.
14일 중국 주요 언론에 따르면 딥시크는 전일 '확장 가능한 조건부 검색을 통한 조건부 메모리: 대형 언어모델 희소성의 새로운 차원' 이란 제목의 논문을 공개했다. 딥시크와 베이징대가 공동으로 논문을 완성했으며 딥시크 창업자이자 최고경영자(CEO)인 량원펑도 저자 명단에 이름을 올렸다.
AI모델 추론 과정의 '역할 분담 최적화'가 이번 논문의 핵심이다. 고정 지식은 '메모리 노트' 같은 전용 모듈이 담당하고 추론 모듈은 복잡한 사고를 맡아 모델을 더 빠르고 더 똑똑하게 만드는 기술이다.
지금까지 AI모델은 문제를 분석하는 '추론'과 외워둔 것을 다시 꺼내는 '지식검색'을 구분하지 않고 같은 방식으로 처리했다. 기존에 외워둔 지식도 전부 다시 생각해서 풀었던 셈이다. 하지만 딥시크는 '조건부 메모리'를 통해 추론 효율성을 더 끌어올렸다. 계산과 추론은 '전문가 혼합(MoE)' 모델에 맞기고 조건부 메모리가 변하지 않는 사실과 고정된 지식을 다루는 식으로 역할 분담을 한 셈이다.
이 같은 구조를 적용한 결과 복잡 추론을 평가하는 'BBH(Big-Bench Hard)'에서 기존보다 5점이 상승했다. 코드생성과 수학문제 해결에서도 각각 3점, 2.4점의 개선이 있었다.
딥시크는 2주 전에도 별도의 논문을 통해 정보처리 네트워크를 여러 갈래로 확장하는 동시에, 각 네트워크로 흘러들어가는 정보의 양이 항상 일정하도록 통제하는 '유형 제약 초연결(mHC)' 구조를 제시했다. AI 시스템을 고속도로에 비유하면 왕복 4차선을 8차선으로 확장하면서 모든 교차로에서 나가고 들어오는 차량(정보)의 총량이 일정하게 유지되도록 신호를 맞춰 톨게이트(메모리)에서의 정체와 병목을 최소화하는 구조인 셈이다.
이를 통해 정보 총량은 유지하면서도 AI 학습의 안정성과 효율성을 동시에 개선했다는 설명이다. 딥시크 연구팀은 이번 초대형 모델 실험에서 mHC를 통해 정보 처리 성능을 높이면서도 AI 학습 속도 저하는 약 6.7%에 그치는 결과값을 얻어냈다.
두 연구 모두 더 많은 고성능 칩 적용을 발판으로 한 미국 빅테크의 '하드웨어 물량전'에 구조와 학습 효율화로 맞서는 딥시크의 전략을 한층 고도화한 것으로 보인다. 중국 AI 전문가들 사이에선 딥시크가 연이어 공개한 기술을 적용한 중대한 업데이트를 다음 달 중순 내놓을 것이란 관측이 나온다. 약 1년 전 저비용 고효율 AI 모델을 공개하며 전 세계의 주목을 받은 딥시크는 그동안 대형 신규버전을 공식 출시하지 않았다.
베이징(중국)=안정준 특파원 7up@mt.co.kr
Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
