컨텐츠로 건너뛰기
검색
조선일보 언론사 이미지

구동 비용이 5분의 1… 美기업도 딥시크 쓴다

조선일보 김성민 기자
원문보기

구동 비용이 5분의 1… 美기업도 딥시크 쓴다

속보
트럼프 "2월 1일 유럽 8개국에 예고한 관세 부과 않겠다"
[‘딥시크 쇼크’ 1년]
<中> 극강 가성비로 AI 판도 뒤집어
딥시크 항정우 본사 빌딩./이벌찬 특파원

딥시크 항정우 본사 빌딩./이벌찬 특파원


세계 최대 석유 기업 아람코는 중국 인공지능(AI) 스타트업 딥시크의 AI 모델을 자사 데이터센터에 도입했다. 아람코가 오픈AI나 구글의 AI 대신 딥시크를 쓴 이유는 가성비 때문이다. 아민 나세르 아람코 사장은 “딥시크의 AI는 의심할 여지 없이 흥미로운 기술 혁신”이라며 “같은 작업을 하는 데 들어가는 자원을 크게 줄여준다”고 했다.

2023년 중국에서 설립된 AI 스타트업 딥시크가 AI 모델 ‘R1’을 내놓은 지 1년 만에 미국 빅테크 중심의 AI 패권에 균열을 내고 있다. 딥시크의 AI 개발 비용은 560만달러(약 82억6000만원)로 비슷한 성능인 미국 오픈AI GPT-4의 18분의 1 수준이다. 이를 두고 테크 업계에선 냉전 시대 소련이 미국보다 먼저 인공위성을 쏘아 올린 사건을 빗대 ‘AI의 스푸트니크 모멘트’이자 ‘딥시크 쇼크’라고 했다. 지난 1년 딥시크는 고효율 경량 AI 모델의 선두 주자로 세계 AI 산업의 트렌드를 바꾸고 있다. 러셀 알트먼 스탠퍼드대 교수는 “뛰어난 엔지니어링과 혁신으로 AI 구축에 필요한 비용을 줄일 수 있다는 사실을 입증했다”며 “자본력이 부족한 개발도상국이나 학계·기관도 AI 시스템 구축에서 경쟁력을 확보할 수 있게 됐다”고 했다.

그래픽=양인성

그래픽=양인성


◇AI 개발 판을 뒤집은 딥시크

미국을 중심으로 한 AI 업계는 더 비싸고, 더 성능 좋은 AI 칩을 최대한 많이 붙여 덩치(연산 능력)를 키우는 게 최선의 AI 모델이라는 ‘스케일링 법칙(Scaling Laws)’을 금과옥조로 여겼다. 딥시크는 이런 믿음을 깨뜨리고, 글로벌 AI 업계에 처음으로 가성비 개념을 적용했다. 1990년대 AI 학계에서 시작된 ‘전문가 혼합(MoE) 방식’을 더 잘게 쪼개는 형태로 극강의 가성비를 구현해낸 것이다.

MoE 방식은 종합병원에 비유할 수 있다. 배탈이 난 환자가 종합병원을 찾으면 안내 데스크가 내과 전문의에게 진료받을 수 있도록 연결해준다. 이때 나머지 의사들은 쉰다. 반면 초기 챗GPT 모델은 환자가 오면 증상과 무관하게 모든 분야 의사가 출동해 어디가 아픈지 진료를 한다. 불필요한 진료가 생기고, 인건비(전기료)가 비싸질 수밖에 없다.

오픈AI의 GPT-4o는 사용자가 100만 토큰(AI가 글을 이해하는 최소 단위)을 질문하는 데 2.5달러, AI가 100만 토큰을 답변하는 데 10달러 비용이 든다. 반면 딥시크 R1은 같은 조건으로 질문할 때 55센트, 답변할 때 2.19달러로 5분의 1 수준이다.

딥시크 모델은 많은 AI 업체가 MoE 구조를 활용해 고효율 가성비 AI 모델을 만들 수 있게 했다. 구글은 제미나이 1.5 시리즈부터 MoE 구조를 활용 중이며, 프랑스의 미스트랄 AI, 메타도 MoE를 적용한 AI 모델을 공개했다. 테크 업계 관계자는 “거의 모든 최신 AI가 MoE 방식이나 그 변형 기술을 사용하고 있다고 보면 된다”고 했다.


◇오픈소스의 힘

딥시크는 AI 모델을 누구나 활용할 수 있도록 AI 설계도를 무료로 개방(오픈소스)했다. 이는 다양한 AI 응용 서비스가 쏟아지는 계기가 됐다. 테크 업계에선 이를 ‘제본스의 역설’로 설명한다. 자원 사용 효율이 높아지면 총 소비가 줄어들 것 같지만, 실제는 늘어난다는 게 제본스의 역설이다. 미래에셋증권은 “딥시크가 촉발한 저비용 고효율 기반 모델 위에 꽃피는 것은 여러 소프트웨어 업체와 CSP(클라우드 사업자)”라며 “딥시크 쇼크로 AI 애플리케이션 성장률은 더 커질 것”이라고 했다.

중국의 텐센트와 바이두는 딥시크 모델을 각종 서비스에 우선 적용했다. 미국 퍼플렉시티, AI 코딩 작성 툴인 커서(Cursor)도 딥시크 모델을 채택했다. 미국의 벤처캐피털(VC) 앤드리슨호로위츠는 “일반적인 AI 모델은 시간이 지나면 사용자가 감소하지만 딥시크 모델은 초기 이탈 후 특정 시점에 다시 증가하는 부활 패턴을 보인다”고 했다. 초기 보안 이슈 등으로 딥시크 사용을 꺼리지만 결국 비용을 이유로 다시 돌아오는 ‘부메랑 효과’를 보인다는 것이다.

☞MoE 기술·토큰

MoE(전문가 혼합) 기술: AI 모델 내부에 분야별 여러 전문가 집단을 두고 필요할 때 특정 분야 전문가만 불러내 활용하는 방식이다. 예를 들어 배가 아픈 환자가 종합병원을 찾으면 안내 데스크가 내과 전문의에게 진료받도록 연결해 준다. 이때 다른 의사들은 쉰다. 이전엔 증상을 불문하고 모든 분야 의사가 동원돼 어디가 아픈지 진료하는 방식이었는데 가성비가 떨어질 수밖에 없다.


토큰: AI가 글자를 이해하는 블록(단위)이다. AI는 사과라는 단어를 읽을 때 통째로 다루지 않고, 사+과 두 개의 토큰으로 인식한다. apple처럼 영어는 단어가 하나의 토큰이 되는 경우가 많은데, 한글은 사+과 2개 토큰이 된다. AI가 모든 문장을 통째로 외우는 것은 불가능한 만큼 효율성을 높이기 위해 기본 토큰만 외운 뒤 이를 조합하는 방식으로 글을 이해하게 한 것이다. 토큰이 많이 든다는 건 비용이 높아진다는 의미다.

[김성민 기자]

- Copyrights ⓒ 조선일보 & chosun.com, 무단 전재 및 재배포 금지 -