KT, 소버린 AI ‘믿:음 2.0’ 오픈소스로 공개… 한국적 데이터 강점, 정부 AI 프로젝트 도전 출사표 : zum 뉴스

KT 기술혁신부문 연구원들이 서울 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있다./KT 제공

“한국적인 인공지능(AI)을 만드는 데 가장 중요한 것은 데이터다. AI 학습 데이터를 고품질로 정제하는 기술을 통해 정서·문화·역사 등 ‘한국적 가치’를 주입한 ‘믿:음 2.0’을 만들었다.”

신동훈 KT 생성형AI 랩장(최고AI책임자·상무)은 3일 온라인 미디어 브리핑에서 이같이 말했다. 최근 정부 차원에서 주력하고 있는 ‘소버린(Sovereign·주권) AI’ 개발에 KT는 ‘한국적 데이터의 중요성’을 강조한 것이다.

소버린 AI는 국가나 기업이 자체적인 인프라·데이터를 활용해 독립적인 AI를 만들어 운영하는 것을 말한다. 이재명 정부는 한글 사용성이 높고 한국 문화·제도·특성에 맞는 자체 AI 서비스를 마련해 모든 국민에게 제공하는 ‘모두의 AI 프로젝트’를 구상하고 있다.

KT는 지난 2023년 10월 내놓은 믿:음 1.0 버전을 자체 기술로 고도화·효율화해 개발한 믿:음 2.0을 오픈소스로 공개했다. 약 2년간 개발해 온 기술을 기업·개인·공공 등 누구나 ‘상업적 활용’이 가능하도록 제약 없이 개방한 것이다. 정부도 독자 개발 AI를 ‘오픈소스 공개’를 염두에 두고 정책을 추진하고 있다.

과학기술정보통신부는 최대 5개 정예팀을 선발하고, 단계 평가로 경쟁형 압축해 최종적으로 ‘독자 AI 파운데이션 모델’을 개발하는 프로젝트를 추진하고 있다. KT는 믿:음 2.0을 공개하며 이 프로젝트에 출사표를 던졌다. 신 상무는 “정부 프로젝트에 참여를 준비하고 있다”며 “(정부 개발 방향이) 저희의 AI 철학과도 맞닿아 있다고 생각한다. 독자 AI 모델은 한국적인 가치·문화를 담아내야 하는데, KT가 데이터 얼라이언스와 함께 최근 1년간 노력해 구축한 데이터들이 ‘독자 AI 모델’을 만드는 데 큰 강점이 될 것”이라고 말했다.

/KT 제공

◇ “믿:음 2.0은 소버린 AI 대표하는 모델”

KT는 믿:음 2.0을 ‘한국적 AI’라고 소개했다. 사전 학습부터 자체적으로 만든 독자 AI 모델인 동시에 고품질 한국어 학습 데이터에 대한 모든 저작권을 확보했기 때문이다. 신 상무는 “확보한 데이터를 언어·형태·내용 등의 기준에 따라 총 200개로 세부 분류해 체계적으로 관리했다”며 “일반적인 AI 모델로서 기능뿐 아니라 특정한 상황에 맞춰 특화하는 데에도 적합한 데이터 관리 시스템을 갖추고 있다”고 말했다.

KT는 정부가 강조하고 있는 ‘소버린 AI’는 결국 한국적 데이터에 달려있다고 봤다. 신 상무는 “사용자의 데이터들이 철저하게 주권이 보장돼야 하고, 사용 환경·목적에 따라 선택권을 줄 수 있어야 한다”며 “모든 규제를 준수하면서 안전하고 책임 있게 운영되고 있다”고 말했다. 이어 “믿:음 2.0은 소버린 AI를 대표하는 모델”이라고 덧붙였다.

믿:음 2.0은 KT와 고려대가 공동 개발한 한국어 AI 역량 평가 지표인 ‘코-소버린(Ko-Sovereign)’ 벤치마크에서 유사 규모의 다른 국내외 모델을 능가하는 점수를 기록했다. 또 한국과 관련한 전문 지식의 이해도를 측정하는 벤치마크 ‘KMMLU’(한국어 대규모 다중과제 언어 이해 평가)와 한국어 언어모델 평가 지표인 ‘HAERAE’(해례)에서도 믿:음 2.0은 ‘우수한 성능’ 평가를 받았다.

/KT 제공

KT는 또 믿:음 2.0 개발 단계부터 토종 팹리스(반도체 설계 기업) 리벨리온과 협력, 국산 AI 반도체에서 동작이 최적화되도록 설계했다. 한국어 구조와 언어학적 특성을 반영한 ‘토크나이저(Tokenizer·문장의 구조를 분석해 토큰으로 나누는 작업 도구)’도 자체 개발해 적용했다. KT 측은 “고려대학교 민족문화연구원과의 산학 협력을 통해 ‘한국적 AI’로서 믿:음 2.0의 학술적 신뢰도도 확보했다”고 전했다.

KT가 이번에 공개한 믿:음 2.0 모델은 ▲115억 파라미터 규모 ‘믿:음 2.0 베이스(Base)’ ▲23억 파라미터 규모 ‘믿:음 2.0 미니(Mini)’ 2종으로 구성된다. 모두 한국어와 영어를 지원한다. 110억 파라미터 이상의 한국어 범용 LLM을 누구나 상업적으로 활용할 수 있는 오픈소스로 공개한 것은 KT가 처음이다.

KT는 믿:음 2.0이 ‘한국적 AI’ 맞춰 개발된 만큼 우선 정부대상사업(B2G) 시장 공략부터 집중할 방침이다. 신 상무는 “우선 공공·금융에 적합한 모델이라고 생각한다”며 “교육·법률 등으로 서비스를 순차 확장해 나갈 계획이고, 일반소비자(B2C) 서비스 출시는 검토 중”이라고 밝혔다.

정두용 기자(jdy2230@chosunbiz.com)

<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.