[나는 K-AI다]① 독파모 경쟁 3개 팀으로 압축…승부수는 : zum 뉴스

SKT ‘규모’ VS LG ‘신뢰’ VS 업스테이지 ‘효율’

정부가 추진하는 ‘독자 AI 파운데이션모델 프로젝트’ 2차 평가 진출 정예팀이 결정됐다. LG AI 연구원, SK텔레콤, 업스테이지 정예팀은 진출에 성공했지만 네이버클라우드, NC AI 정예팀은 고배를 마셨다. 1차 평가에서 4개 정예팀을 가리겠다고 했던 당초 계획과 다른 결과에 업계 충격도 적지 않다. 네이버클라우드 정예팀이 독자성 문제가 불거지면서 2차 진출이 무산되면서다. 이에 <디지털데일리>가 1차 평가 과정을 돌아보면서 업계 및 전문가들의 목소리를 들어보고 이어지는 2차 평가에 대한 전망을 집중적으로 살펴봤다.<편집자주>

[디지털데일리 강소현 기자] 정부 ‘독자 AI 파운데이션모델 프로젝트(독파모)’ 2차 평가에 진출할 3개 팀이 확정됐다. LG AI연구원과 업스테이지, SK텔레콤 컨소시엄이 2차 평가에 올라 3강 구도로 경쟁을 이어간다. 당초 유력 후보로 거론됐던 네이버클라우드는 독자성 평가에서, 엔씨 AI는 점수 평가에서 각각 탈락했다.

다만 정부는 ‘탈락’이나 ‘실패’라는 프레임을 경계했다. 독파모 1차 단계평가 브리핑 질의응답에서 류제명 과기정통부 2차관은 “이번 프로젝트에 참여한 모든 기업과 개발자들이 치열하게 노력했고 이미 많은 가시적 성과를 만들어냈다”며 “모두가 승자”라고 강조했다.

경쟁 구도가 3개 팀으로 압축되면서 각 컨소시엄이 내세운 전략도 더욱 분명해졌다. SK텔레콤은 ‘규모’, LG AI연구원은 ‘신뢰’, 업스테이지는 ‘효율’을 핵심 키워드로 승부수를 던졌다.

◆ SK텔레콤 “한국 최초 500B”…초대형 AI로 스케일 전략

SK텔레콤은 이번 경쟁에서 ‘스케일 우위’를 전면에 내세웠다. ‘A.X K1’(에이닷 엑스 케이원)은 한국 최초 500B(5000억) 파라미터를 구현한 초거대 AI 모델로, 현재 500B급 모델을 보유한 국가는 미국과 중국 등 일부에 불과하다. SK텔레콤은 국가대표급 초대형 모델을 선제적으로 구축한 점 자체를 경쟁력으로 강조하고 있다.

SK텔레콤이 공개한 기술보고서에 따르면 A.X K1은 글로벌 오픈소스 모델 ‘딥시크 V3(DeepSeek-V3)’ 대비 지시 수행 정확도가 148% 수준을 기록했다. 수학 추론 능력을 평가하는 AIME25에서는 89.8점으로 딥시크 V3(88.4점)를 웃돌았고 LiveCodeBench 코딩 평가에서도 영어 75.8점, 한국어 73.1점을 기록해 각각 109%, 110% 수준의 성능을 보였다는 설명이다.

특히 SK텔레콤은 ‘대규모 모델은 비효율적일 수 있다’는 통념에 대해 선제적으로 반론을 제기했다. 단순히 큰 모델을 만드는 데 그치지 않고 초대형 모델을 ‘교사 모델’로 삼아 더 작고 효율적인 파생 모델을 만들어낼 수 있다는 전략이다. 2단계 평가부터는 이미지 데이터를 시작으로 멀티모달 영역까지 순차적으로 확장할 계획도 밝혔다.

이 같은 접근은 초대형 모델을 생태계 확산의 출발점으로 삼겠다는 구상으로 이어진다. SK텔레콤 컨소시엄은 “잘 만든 모델 하나가 사회의 핵심적인 간접자본이 될 수 있다”는 비전 아래, 향후 1조 매개변수 모델까지 확장하겠다는 청사진을 제시했다.

결국 2차 평가의 핵심 질문은 ‘얼마나 큰 모델인가’가 아니라, ‘그 큰 모델을 얼마나 효율적으로 활용할 수 있는가’로 수렴될 전망이다.

◆ LG AI연구원 “GPT-5와 격차 6개월”…‘신뢰+전문가 AI’로 신뢰 차별화

LG AI연구원은 성능 경쟁을 넘어 데이터의 신뢰성과 안전성을 핵심 축으로 제시했다.

자체 모델 ‘K-엑사원(EXAONE) 236B’은 학습에 사용된 모든 데이터가 사내 변호사의 저작권·법률 검토를 거친 ‘클린 데이터’로 구성됐다는 점을 차별화 요소로 내세웠다. AI 안전성 평가에서도 인류 보편적 가치와 사회 안전 영역 전반에서 97점 이상의 점수를 기록했다고 밝혔다.

성능 측면에서도 자신감을 보였다. 엑사원 4.0은 마이크로소프트(MS)의 ‘AI 확산 리포트(2025년 11월)’에서 “GPT-5, 딥시크에 이어 글로벌 3위 수준 경쟁력”이라는 평가를 받았으며, GPT-5와의 기술 격차가 약 6개월 수준이라는 분석도 인용했다.

기술적으로는 전문가 혼합(MoE) 구조 고도화와 하이브리드 어텐션(Hybrid Attention) 기술을 통해 연산량을 약 30% 절감했다. 고성능 모델임에도 중저가 GPU(A100 수준)에서 구동 가능한 경제성을 확보해 실제 산업 현장 확산 가능성을 높였다는 설명이다.

실제 이러한 전략은 산업 현장에서의 성과로도 이어지고 있다는 평가다. LG AI연구원은 바이오 분야에서 AI를 활용해 신물질 발굴 기간을 기존 21개월에서 하루로 단축한 사례를 제시하며 ‘전문가 AI’의 실질적 활용 가능성을 강조했다. 이는 정부가 질의응답에서 강조한 “모델의 크기보다 실제 산업 현장에서 얼마나 유용하게 쓰일 수 있는지가 중요하다”는 평가 방향과도 맞닿아 있다.

◆ 업스테이지 “세금 1분도 허투루 안 쓴다”…효율·최적화 전략

독파모 정예팀 가운데 유일한 스타트업인 업스테이지는 ‘효율성’ 메시지를 가장 선명하게 드러냈다.

업스테이지는 20T(테라) 토큰 학습 기간을 120일에서 66일로 단축했고, GPU 장애 복구 시간도 크게 줄였다고 밝혔다. 김성훈 업스테이지 대표는 “정부가 지원하는 GPU는 달리 말해 국민의 세금인 만큼 1분도 허투루 쓰지 않으려 했다”며 인프라 최적화 역량을 강조한 바 있다.

4개월 만에 완성한 ‘솔라 오픈 100B’ 모델은 한국어 처리 능력과 추론 성능을 강점으로 내세웠다. 지난 1차 성과 발표회 현장에선 솔라 기반 AI 검색, 심층 리서치 생성, PPT 슬라이드 생성 시연이 이뤄졌고 난해한 추론 문제에도 정확히 답하는 사례가 소개됐다.

즉 대규모 자본을 앞세운 스케일 경쟁이 어려운 조건에서 업스테이지는 ‘같은 자원으로 얼마나 빠르고 효율적으로 성능을 끌어올릴 수 있는가’를 승부처로 삼았다.

정부가 이번 프로젝트를 “짧은 기간에 많은 성과를 내기 위한 압축 경쟁”으로 설계했다고 밝힌 만큼 업스테이지의 접근은 프로젝트 취지에 부합하는 전략으로 평가된다.

◆ 정부 AI ‘독자성’ 기준 시험대에…“판결 기준 먼저 확립돼야”

이번 평가의 최대 쟁점은 네이버클라우드의 2차 진출 무산이었다. 정부는 중국 알리바바 ‘큐웬(Qwen)’ 계열 비디오·오디오 인코더 가중치를 그대로 사용한 점을 문제로 지적했다. 류제명 차관은 “외부 모델 가중치를 그대로 활용한 부분에서 기술적 측면의 문제가 있었다”고 설명했다.

문제는 독자성 논란이 네이버클라우드만의 이슈가 아니었다는 점이다. 업스테이지와 SK텔레콤 정예팀의 모델을 두고도 외부 소스 활용 여부를 둘러싼 의혹이 제기된 바 있다. 정부는 당락을 좌우할 수준의 하자로 보지 않았다 설명했지만 명확한 독자성 평가 기준 설계는 향후 과제로 지목된다.

정부 역시 이러한 논란을 의식해 기준 보완에 나서겠다는 입장을 밝혔다. 김경만 과기정통부 인공지능정책실장은 “프롬 스크래치 등 독자성 판단 기준을 학계·업계·전문가 의견을 더 수렴해 차등 배점을 구체화하겠다”며 “같은 문제가 반복되지 않도록 하겠다”고 말했다.

전문가들은 독파모가 ‘국가대표 AI’를 표방한 만큼, 독자성 기준과 함께 활용·확산 전략이 동시에 설계돼야 한다고 지적한다.

한 업계 전문가는 “독자성을 판별할 기준이 먼저 확립돼야 한다”며 “무엇을 어디까지 썼고, 어떤 부분을 어떻게 고쳤는지를 명확히 판단할 수 있어야 한다”고 말했다. 또 “초대형 모델이든 효율형 모델이든, 중소기업과 산업 현장에서 실제로 쓰일 수 있도록 API 제공, 경량화, 파생 모델 등 구체적인 확산 방안이 필요하다”고 강조했다.

한편 정부는 2차 진출에 실패한 팀에도 재도전의 기회를 열어두겠다는 방침을 분명히 했다. 공석을 채울 추가 1개 팀 선발도 추진해 확보된 GPU 자원과 예산을 보다 효율적으로 활용하겠다는 구상이다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

이 기사의 카테고리는 언론사의 분류를 따릅니다.