컨텐츠로 건너뛰기
검색
메트로신문사 언론사 이미지

SK텔레콤, 519B 초거대 AI 모델 ‘A.X K1’ 기술 보고서 공개

메트로신문사 김서현
원문보기

SK텔레콤, 519B 초거대 AI 모델 ‘A.X K1’ 기술 보고서 공개

속보
'계엄 단전·단수 지시' 이상민 다음달 12일 1심 선고

SK텔레콤은 매개변수 519B(5190억 개) 규모의 초거대 인공지능 모델 'A.X K1'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다.

A.X K1은 약 4개월의 개발 기간과 제한된 GPU 자원 환경에서 설계·학습된 모델이다. SK텔레콤은 학습 효율을 높이기 위한 구조 설계와 자원 배분을 통해 국내 최초로 500B 이상 규모의 초거대 모델을 구현했다.

보고서에 따르면 A.X K1은 주요 벤치마크에서 딥시크-V3.1 등 글로벌 오픈소스 초거대 모델과 유사한 수준의 성능을 기록했다. 매개변수 규모가 커질수록 학습에 필요한 자원과 시간이 증가하는 점을 고려할 때, 비교적 제한된 자원으로 대규모 모델을 구현했다는 점이 특징이다.

A.X K1은 추가 연구를 통해 성능 확장이 가능한 구조로 설계됐다. SK텔레콤은 연내 멀티모달 기능을 추가하고, 조 단위 파라미터 규모로 확대하는 방안을 검토하고 있다.

정예팀은 약 1000개의 GPU 자원을 활용해 모델 학습을 진행했다. 총 학습 가능량을 추산한 뒤 스케일링 이론을 적용해 모델 크기를 설계했으며, 약 10조 개의 데이터를 투입해 학습을 완료했다. 학습에는 웹 데이터, 코드, 이공계(STEM) 자료, 추론 데이터 등이 활용됐고, 한국어 특화 PDF 문서 파싱과 난이도별 커리큘럼 학습 방식도 적용됐다.

벤치마크 결과를 보면, 수학 성능을 평가하는 AIME25에서 89.8점을 기록했으며, 실시간 코딩 문제 해결 능력을 측정하는 라이브코드벤치에서는 영어 75.8점, 한국어 73.1점을 나타냈다. 해당 지표는 동일 계열의 초거대 오픈소스 모델과의 비교를 통해 규모 대비 성능을 확인할 수 있도록 구성됐다.

모델 구조 측면에서는 전체 519B 파라미터 가운데 33B만을 선택적으로 활성화하는 전문가 혼합(MoE) 방식을 적용했다. 이를 통해 학습 과정의 안정성과 연산 효율을 함께 확보했다. 또한 최대 128K 토큰 길이의 문맥을 처리할 수 있도록 설계돼, 대용량 문서나 장문의 텍스트를 한 번에 분석할 수 있다.