컨텐츠로 건너뛰기
검색
머니투데이 언론사 이미지

SKT 정예팀, A.X K1 기술 보고서 공개…"딥시크보다 성능 뛰어나"

머니투데이 김승한기자
원문보기

SKT 정예팀, A.X K1 기술 보고서 공개…"딥시크보다 성능 뛰어나"

속보
소방청 "전남 광양 산불 야간 진화에 국가소방동원령 발령"
SK텔레콤 사옥. /사진=SK텔레콤

SK텔레콤 사옥. /사진=SK텔레콤



SK텔레콤 정예팀은 AI 연구팀이 개발한 초거대 언어모델 'A.X K1(에이닷엑스 케이원)'의 기술 보고서를 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개했다고 7일 밝혔다.

A.X K1은 개발 기간 4개월, 자체 1000개의GPU(그래픽처리장치) 자원만으로 완성한 이 모델은 일부 글로벌 모델보다 높은 성능을 기록해 주목을 받는다. 매개변수 5190억개(519B) 규모로 현재 국내에 공개된 AI 모델 중 최대 크기다.

SK텔레콤에 따르면 A.X K1은 개발 기간 수학, 코딩 등 고난도 작업을 중심으로 높은 성능을 구현했다. 대표적으로 미국 수학 올림피아드 문제로 구성된 'AIME25' 벤치마크에서 89.8점을 기록해, 6850억 개 파라미터를 지닌 글로벌 모델 '딥시크-V3.1(88.4점)'보다 높은 성능을 보였다.

또 실시간 코딩 능력을 평가하는 'LiveCodeBench'에서는 영어 기준 75.8점, 한국어 기준 73.1점을 기록하며 딥시크-V3.1(영어 69.5점, 한국어 66.2점)을 앞섰다. 각각 109%, 110% 수준으로 우수한 성능을 입증했다.

A.X K1은 GPU 자원이 한정된 상황에서도 개발 효율성을 극대화한 점에서 주목된다. 정예팀은 스케일링 이론을 바탕으로 모델의 최대 학습 효율을 계산해, 약 10조개(10T)의 고품질 데이터를 투입해 학습을 진행했다. 이 과정에서 웹 문서, 코드, 이공계(STEM) 자료는 물론 한국어 특화 PDF 문서를 파싱하고, 합성 데이터를 생성해 다양한 방식의 커리큘럼 학습을 적용했다.

훈련 효율성과 안정성을 높이기 위해 A.X K1에는 전문가 혼합(MoE, Mixture of Expert) 구조가 적용됐다. 전체 519B 파라미터 가운데 33B만 선택적으로 활성화되는 방식으로, 연산 자원은 줄이면서도 고성능을 유지할 수 있게 설계됐다.


또 A.X K1은 한 번에 최대 128K 토큰을 처리할 수 있는 긴 문맥 이해 능력을 갖췄다. 이는 한국어 기준 약 10만 단어에 해당하며, 소설 한 권이나 기업의 연간 보고서 전체를 동시에 분석할 수 있는 수준이다.

SK텔레콤은 연내 A.X K1에 멀티모달 기능을 추가하고, 조 단위 파라미터 규모로 확장하는 후속 연구도 이어갈 계획이다.

김승한 기자 winone@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.