컨텐츠 바로가기

02.04 (화)

메타 1/10 비용에 저성능 반도체로 이룬 中 AI '딥시크' 관심 폭발

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

<이미지를 클릭하시면 크게 보실 수 있습니다>


중국 인공지능(AI) 스타트업 딥시크(Deepseek)가 출시한 '딥시크 R1'이 연일 화제가 되고 있다. 일부 영역에서는 현존 최고 수준으로 일컬어지는 오픈AI의 챗GPT를 추월한 것으로 알려졌다.

28일 IT업계에 따르면 딥시크 사(社)의 AI 딥시크 R1이 챗GPT 등 주요 AI 모델 대비 수천배 이상 저렴한 비용으로 개발됐다.

딥시크 사는 2023년 5월 중국 저장성 항저우에서 1985년생 량원펑(梁文锋)에 의해 설립 된 스타트업 기업이다.

량원펑은 공학분야 명문대인 저장대에서 전자정보공학, 정보통신공학 학사와 석사를 각각 받았다. 그는 대학 졸업 후 금융에 AI를 적용하기 위한 연구를 했고 2016년 동기 2명과 AI와 수학에 의존해 투자를 진행하는 헤지펀드사 '하이 플라이어'를 설립했다. 딥시크의 모회사이기도 한 하이 플라이어는 한때 100억 위안 이상의 자산을 운용했다.

량원펑은 2021년부터 돌발적으로 수천 개의 엔비디아 GPU 구입을 시작했고, 이를 바탕으로 딥시크를 창업했다. 량원펑에 따르면 미국 정부의 중국 AI 반도체 규제 압박 전 이미 엔비디아 A100 GPU를 1만 개 이상 확보했고, 이를 토대로 LLM 개발에 나설 수 있었다.

딥시크 R1은 챗GPT와 같은 대규모언어모델(LLM)로 6710억 개의 매개변수를 확보했다. 알려진 바에 따르면 약 2개월의 시간 동안 558만 달러의 비용으로 학습했다. 메타의 최신 AI 모델이자 엔비디아의 H100으로 훈련한 라마(Llama)3 모델의 훈련 비용 대비 1/10 수준에 그친다. 딥시크가 주요하게 활용한 H800은 미국이 대(對) 중국 견제를 위해 AI 반도체 수출 규제 강도가 강해지자 엔비디아가 H100의 성능과 사양을 낮춰 출시한 제품이다. 여타 AI 모델과 비교해도 압도적이다. 오픈AI의 챗GPT의 학습과 훈련에는 최소 수억 달러에서 최대 수십억 달러에 달하는 비용이 든 것으로 알려졌다. 이는 딥시크가 비용 효율적인 학습과 훈련을 위해 설계된 새로운 아키텍처를 활용하기 때문인데, 해당 아키텍처를 이용하면 LLM은 학습하는데 278만 GPU시간만 필요로 할 만큼 소요 시간이 줄어든다. 페이스북의 메타가 자체 모델을 훈련하는데 필요한 3080만 GPU시간과 큰 차이가 난다.

세계적 기술 투자자인 마크 앤드레슨은 자신의 SNS 계정을 통해 "딥시크는 내가 본 것 중 가장 놀랍고 인상적인 혁신 중 하나"라고 설명했다.


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.