[임경호 기자]
정부가 추진하는 '독자 AI 파운데이션 모델' 사업에 참여하는 SK텔레콤 정예팀이 자사 모델 A.X K1 기술 보고서를 온라인에 공개했다. 5개 정예팀 가운데 가장 큰 규모로 개발 효율을 극대화하고 학습 효과 및 성능을 높여 수학, 코딩과 같은 AI 활용 분야에서 우수한 성능을 구현하도록 설계한 점이 특징이다.
SK텔레콤 정예팀은 매개변수 5190억개(519B) 규모의 초거대 AI 모델 '에이닷엑스 케이원(A.X K1)'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다.
지난해 12월 30일 서울 강남 코엑스에서 독자 AI 파운데이션 모델 프로젝트 1차 발표회 사전 행사가 열리고 있다. 사진은 SK텔레콤 부스에서 설명을 듣고 있는 관람객 모습. /사진=임경호 기자 |
정부가 추진하는 '독자 AI 파운데이션 모델' 사업에 참여하는 SK텔레콤 정예팀이 자사 모델 A.X K1 기술 보고서를 온라인에 공개했다. 5개 정예팀 가운데 가장 큰 규모로 개발 효율을 극대화하고 학습 효과 및 성능을 높여 수학, 코딩과 같은 AI 활용 분야에서 우수한 성능을 구현하도록 설계한 점이 특징이다.
SK텔레콤 정예팀은 매개변수 5190억개(519B) 규모의 초거대 AI 모델 '에이닷엑스 케이원(A.X K1)'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다.
SK텔레콤 정예팀은 약 4개월 동안 제한된 GPU 자원을 활용해 국내에서 처음으로 500B 이상 초거대 모델 A.X K1을 완성했다. 정예팀에 따르면 이번 모델은 주요 벤치마크에서 2025년 8월 출시된 오픈소스 모델 딥시크-V3.1 등 글로벌 초거대 모델과 유사하거나 더 높은 성능을 달성했다.
정예팀은 "통상 매개변수가 많아질수록 최적화 시간과 GPU 자원 투입이 늘어날 수밖에 없는데 타 정예팀 대비 최소 2배 이상의 모델 규모임에도 높은 성능까지 확보했다"고 특징을 설명했다.
정예팀은 향후 추가 연구 기간에 따라 더 많은 컴퓨팅 자원과 데이터를 투입해 A.X K1의 성능을 더욱 높일 수 있을 것으로 내다봤다. 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대한다는 계획이다.
정예팀은 A.X K1 학습에 투입된 자원도 공개했다. GPU 1000개를 활용했다. 학습 기간과 GPU 규모를 바탕으로 가능한 총 학습량을 추산하고 이를 통해 최대 모델 크기를 스케일링 이론에 근거해 설계했다. 이 이론은 모델 성능이 투입 자원에 비례한다는 내용을 담고 있다. 이에 따라 독창적 매개변수 구조인 519B 규모의 모델을 목표로 정하고 약 10조(10T)개 데이터를 투입했다.
정예팀은 개발기간 동안 1000개 이상 GPU를 AI 훈련에 상시 활용했다. 투여된 GPU 자원 대비 효과를 극대화하기 위해 최적의 학습 연산량을 수학적으로 설계하고 관리했다. 특히 A.X K1은 이번 개발기간 동안 정부 지원을 받지 않고 자체 GPU 조달만으로 목표를 달성했다.
모델 학습에는 웹 데이터, 코드, 이공계 데이터, 추론 데이터 등 다양한 고품질 데이터를 활용했다. 한국어 특화 PDF 문서를 파싱 및 합성 데이터를 생성했고, 난이도별 커리큘럼 학습 방식도 적용했다. 파싱은 개발 프로그램이 학습자료를 이해할 수 있도록 복잡한 자료를 구조적으로 분해해서 정리하는 것을 뜻한다.
A.X K1은 수학과 코딩 분야 등에서도 우수한 성능을 구현했다. 이번 보고서에 기술된 벤치마크 지표는 매개변수 6850억 개(685B)의 딥시크-V3.1, 매개변수 3570개(357B)의 GLM-4.6 오픈소스 모델과 비교해 규모 대비 성능을 비교할 수 있도록 했다.
수학은 AIME25 벤치마크에서 89.8점을 받아 딥시크-V3.1 모델(88.4점) 대비 102% 수준으로 성능이 앞섰다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하며 창의적이고 복잡한 난이도의 문제가 출제된다.
코딩 활용도 측면에서 측정한 라이브코드벤치는 영어 기반 75.8점, 한국어 기반 73.1점을 기록했다. 영어 기반 69.5점, 한국어 기반 66.2점을 받은 딥시크-V3.1 대비 각각 109%, 110% 수준의 높은 성능을 보였다. 이 지표는 AI가 실시간으로 나오는 최신 코딩 문제를 얼마나 잘 푸는지 측정한다.
A.X K1은 519B 규모의 파라미터 가운데 33B만 선택적으로 활성화하는 방식으로 효율성도 담보했다. 전문가 혼합(MoE) 구조를 채택해 AI 훈련 과정의 안정성과 효율을 동시에 확보한 것이 특징이다. MoE란 여러 개의 작은 전문가 모델들이 모여서 하나의 큰 문제를 해결하는 방식으로 각 전문가 모델은 특정 유형의 데이터를 잘 처리하도록 특화됐다. 입력 데이터에 따라 가장 적합한 전문가를 선택해 문제를 해결한다.
이밖에도 A.X K1은 한 번에 128K 토큰의 긴 문맥도 처리할 수 있는 능력을 갖췄다. 이는 한국어 기준 약 10만 단어에 해당한다. AI 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있게 한다.
임경호 기자 lim@techm.kr
<저작권자 Copyright ⓒ 테크M 무단전재 및 재배포 금지>
