컨텐츠로 건너뛰기
검색
더팩트 언론사 이미지

KT, 자체 개발 LLM 오픈소스로 공개…'한국적 AI' 주도권 노린다

더팩트
원문보기

KT, 자체 개발 LLM 오픈소스로 공개…'한국적 AI' 주도권 노린다

속보
유럽중앙은행, 예상대로 금리 2.00% 동결

자체 개발 한국적 AI '믿:음 2.0' 오픈소스로 공개
고품질 한국적 데이터로 언어·문화 특성 반영


KT 기술혁신부문 연구원들이 서울 서초구 KT 우면연구센터에서 '믿:음 2.0'을 테스트하고 있다. /KT

KT 기술혁신부문 연구원들이 서울 서초구 KT 우면연구센터에서 '믿:음 2.0'을 테스트하고 있다. /KT


[더팩트ㅣ조소현 기자] KT가 한국적 언어와 문화를 반영한 자체 개발 대규모언어모델(LLM) '믿:음 2.0'을 공개, 상업적 활용이 가능한 오픈소스로 제공한다. 110억 파라미터 이상의 한국어 범용 LLM을 오픈소스로 공개한 것은 국내에서 KT가 처음이며, 이를 통해 '한국적 AI' 확산을 선도하겠다는 방침이다.

KT는 3일 온라인 브리핑을 열고 믿:음 2.0의 기술 구성과 전략을 발표했다. 발표에 나선 신동훈 KT Gen AI Lab장(상무)은 "한국의 언어와 문화를 이해하는 독자 AI 모델을 만드는 것이 목표였다"며 "그간 개발이 중단된 것 아니냐는 의문도 있었지만, 오히려 철학에 맞는 모델을 구현하기 위해 치열하게 고민해 왔다"고 말했다.

믿:음 2.0은 KT가 지난 2023년 출시한 '믿:음 1.0'(Standard, Premium)의 후속작이다. 1.0 버전은 KT AI 고객센터(AICC), 지니TV, AI 전화, 100번 고객센터 등 다양한 서비스에 적용돼 왔으며, 믿:음 시리즈는 KT가 사전학습부터 자체 설계한 한국어 특화 독자 AI 모델로 개발됐다.

믿:음 2.0은 △23억 파라미터 규모의 경량형 'Mini' △115억 파라미터 규모의 범용 'Base' △고성능 'Pro' 모델로 구성된다. 이 가운데 Mini와 Base가 오는 4일부터 AI 개발자 플랫폼 '허깅페이스(Hugging Face)'를 통해 오픈소스로 공개되며, 기업과 개인, 공공 누구나 무료로 다운로드해 상업적 활용이 가능하다. Pro 모델과 멀티모달 AI는 향후 순차적으로 공개될 예정이다.

KT가 3일 온라인 브리핑을 열고 '믿:음 2.0'의 기술 구성과 전략을 발표했다. /KT

KT가 3일 온라인 브리핑을 열고 '믿:음 2.0'의 기술 구성과 전략을 발표했다. /KT


KT는 이번 모델이 한국적 AI의 철학을 반영하는 데 초점을 맞췄다고 강조했다. 이 철학은 KT가 정의한 'K-아이덴티티' 개념을 중심으로, 한국의 가치(K-Value), 지식(K-Knowledge), 문화(K-Style)을 반영하는 AI를 의미한다.

신 상무는 "한국적인 뉘앙스와 감정 표현, 예의범절까지 반영하도록 튜닝됐다"며 "B2B 환경에서 자주 활용되는 문서나 도구에도 최적화했다"고 설명했다.


KT는 국내 교육용 도서와 문학 작품 등의 발간물, 법률 및 특허 문서, 각종 사전 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터를 확보해 믿:음 2.0 학습에 활용했다. 또 저작권 이슈가 있는 데이터는 모두 제거하는 등 KT의 Responsible AI 원칙에 따라 고품질 데이터를 선별해 가공했다.

아울러 한국어의 구조와 언어학적 특성을 반영한 토크나이저(Tokenizer)를 자체 개발하고, 필터링으로 줄어든 데이터 규모는 데이터 합성 방법론을 적용해 보완했다. 이를 통해 한국 사회 고유의 언어와 문화적 맥락을 정교하게 반영해 한국어 사용자에 최적화된 언어 이해 능력과 정밀한 표현력을 지닌 모델로 구현했다. 고려대학교 민족문화연구원과의 산학 협력을 통해 한국적 AI로서 믿:음 2.0의 학술적 신뢰도도 확보했다.

성능 측면에서도 경쟁 모델 대비 우수한 결과를 보였다는 설명이다. KT에 따르면, KT와 고려대가 공동 개발한 한국어 AI 역량 평가 지표인 '코-소버린(Ko-Sovereign)' 벤치마크에서 유사 규모의 국내 기성 모델을 비롯해 글로벌 최고 수준의 오픈소스 모델을 능가하는 점수를 기록했다. 코-소버린은 한국적 AI 성능을 종합적으로 평가할 수 있도록 언어와 문화, 사회, 역사 등의 한국적 맥락을 정밀하게 반영한 전문가 수준의 문항으로 구성됐다.


또 한국과 관련한 전문 지식의 이해도를 측정하는 대표적 벤치마크 'KMMLU'와 한국어 언어모델 평가 지표인 'HAERAE'에서도 믿:음은 국내외 주요 오픈소스 모델보다 더 우수한 성능을 기록했다.

KT는 향후 마이크로소프트(MS)와의 협업으로 GPT-4에 한국적 사고와 정서를 추가 학습시키는 방식의 모델도 순차 공개할 계획이다. 신 상무는 "믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 언어와 문화를 깊이 이해하도록 고도화된 AI 모델"이라며 "이는 KT가 국내 사용자들에게 고성능 한국적 AI 모델에 대한 새로운 대안을 제시하는 한편 글로벌 경쟁력을 갖추게 될 중요한 발판이 될 것"이라고 강조했다.

sohyun@tf.co.kr


발로 뛰는 더팩트는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write