국대 AI 5종, 비교해보니…케이엑사원·에이닷엑스 케이원 ‘우수’ : zum 뉴스

생성형 인공지능(AI) ‘챗지피티’(Chat GPT)에 “과학기술정보통신부의 ‘독자 인공지능 파운데이션 모델’ 사업과 5개 정예팀(네이버클라우드, SK텔레콤, 업스테이지, LG AI연구원, NC AI) 관련 이미지를 만들어주세요”라는 지시어를 입력해 생성한 이미지.

국가대표 인공지능(AI) 기업 선발전 1차 평가가 이달 안에 이뤄질 것으로 예상되는 가운데, ‘케이 인공지능(K-AI)’ 모델들의 기술보고서(테크니컬 리포트)가 전부 공개됐다. 보고서에 수록된 벤치마크 테스트 점수를 비교해 본 결과, 엘지(LG) 에이아이 연구원의 ‘케이 엑사원’과 에스케이텔레콤(SKT)의 에이닷엑스 케이원(A.X K1)이 상대적으로 좋은 성능을 보이는 것으로 나타났다.

11일 현재까지 공개된 국가대표 인공지능 모델 기술보고서를 보면, 공통적으로 등장하는 엠엠엘유프로(MMLU-Pro)등의 벤치마크를 기준으로 엘지 에이아이 연구원의 케이 엑사원이 다섯개 모델 중 전반적으로 가장 우수한 평가를 받은 것으로 나타났다. 케이엑사원은 전문지식을 평가하는 엠엠엘유프로(83.8점) 뿐 아니라 과학 추론 능력을 보는 지피큐에이 다이아몬드(GPQA-Diamond, 79.1점), 코딩 능력을 보는 라이브코드벤치(80.7점) 등 각종 벤치마크에서 국가대표 모델들 가운데 최고점을 받았다. 케이엑사원은 독자 인공지능 파운데이션 모델 프로젝트 1차 평가 기준인 13개의 벤치마크 테스트 중 10개 항목에서 1위를 차지했다고 밝힌 바 있다.

현재 국가대표 인공지능에 도전하고 있는 5개 기업은 지난 3일부터 순차적으로 자사 모델에 대한 기술보고서를 공개하고 있다. 지난 9일 엔씨(NC) 에이아이가 허깅페이스 등 인공지능 플랫폼에 자사의 모델 ‘배키(VAETKI)’의 기술보고서를 공개하면서 국가대표 모델들의 기술보고서가 전부 공개됐다. 기술보고서는 해당 인공지능 모델을 설명하는 일종의 제품사양서로, 벤치마크 테스트를 통한 성능 점수가 포함돼 있다.

에스케이텔레콤의 ‘에이닷엑스 케이원’의 성능도 전반적으로 우수한 편이었다. 에이닷엑스 케이원의 파라미터(매개변수) 수는 5190억개로 국내 최초의 초거대 모델이다. 일반적으로 파라미터가 많을수록 복잡한 작업을 잘 수행하는 걸로 알려져 있다.

네이버클라우드는 기술보고서에 엠엠엘유 프로, 지피큐에이 다이아몬드 등의 벤치마크 테스트 결과를 담지 않아 직접적인 비교가 어려웠다. 네이버클라우드 측은 “(보고서에는) 각 회사의 기준에 따라 벤치마크를 선정했다”고 설명했다. 다만 네이버클라우드 모델인 ‘하이퍼클로바X시드 싱크’ 모델은 인공지능의 에이전트 능력을 평가하는 타우스퀘어텔레콤 벤치(τ2-Bench telecom, 실제 통신사 직원처럼 일할 수 있는지 측정) 등에서는 양호한 수치를 거둔 것으로 확인됐다.

한편 이달 중하순께로 예정된 1차 평가 결과 발표를 앞두고 국가대표 인공지능 선발전에 열기가 더해지고 있다. 최근에는 네이버클라우드 인공지능 모델이 중국의 큐웬 인코더(이미지·영상, 음성 데이터를 인공지능이 이해할 수 있도록 숫자 값으로 변환하는 모듈)와 가중치를 사용했단 사실이 알려져 논란이 일기도 했다. 정부는 2027년 상반기까지 국가대표 인공지능 최종 2팀을 선정할 방침이다.

채반석 기자 chaibs@hani.co.kr

[한겨레 후원하기] 시민과 함께 민주주의를

겨울밤 밝히는 민주주의 불빛 ▶스토리 보기

▶▶한겨레 뉴스레터 모아보기

이 기사의 카테고리는 언론사의 분류를 따릅니다.