KT에서는 이러한 기조에 발맞춰 지난달 3일 독자 AI 모델 ‘믿:음2.0’을 선보인 바 있다. 한국 특화 데이터 등으로 학습한 AI 모델이라는 점을 강조하며, ‘한국스러움’ 및 ‘안전’에 집중한 모델이란 점을 마케팅 포인트로 삼았다.
이를 위해 KT는 믿:음2.0 개발 과정에 한국스러운 데이터를 담기 위한 다양한 협력 체계를 구축하고, 한국인과 한국기업 등을 AI가 바로 이해할 수 있는 특화 모델로 만드는 것에 공을 들였다. 아울러, AI가 유발할 수 있는 편향성과 유해콘텐츠 등을 사전에 차단하는 조치로 AI 대중화 제반 작업에도 신경 쓴다는 방침이다.
◆‘한국 고유 정서’ 초점 맞춘 데이터 정제
KT가 말하는 ‘한국적 AI’는 한국의 정신과 방식, 지식을 기반으로 구현해 한국에 가장 잘 맞는 AI를 의미한다. 이를 위해 KT는 한국의 사회적 맥락과 같은 무형의 요소와 한국어 고유의 언어적·문화적 특성을 반영해 학습하는 것에 방점을 찍었다. 특히 AI를 학습하는 과정에 필요한 데이터를 정제해 고품질 데이터를 생산하는 것에 공을 들였다는 것이 KT의 설명이다.
KT에 따르면, ‘믿:음2.0’ 모델 학습 과정에는 ▲국내 교육용 도서 ▲문학 작품 ▲법률 및 특허 문서 ▲각종 사전 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터가 사용됐다. 또, 한국어의 구조와 언어학적 특성을 반영한 토크나이저(Tokenizer)를 자체 개발하고, 필터링으로 줄어든 데이터 규모는 데이터 합성 방법론을 적용해 보완했다. 토크나이저란 AI를 학습시키는 과정에서 인간의 언어를 하나의 ‘토큰’으로 전환해 기계가 이해할 수 있도록 쪼개주는 도구다.
이러한 데이터를 확보하기 위해 KT는 앞서 지난 3월 고려대학교 민족문화연구원과 협력하는 등 외부 협력 체계 구축에도 집중했다. KT와 민족문화연구원은 고려대 한국어대사전을 비롯한 다양한 한국어 사전데이터, 한국현대소설사전과 근대간행물사전 등의 백과사전데이터, 민족문화연구 총서 등 민연의 방대한 한국학 데이터를 활용해 보다 정교한 한국적 AI 개발에 힘을 줬다.
KT는 ‘믿:음2.0’ 공개와 함께 발간한 ‘테크니컬 리포트’에서 통해 “수많은 대형언어모델(LLM)이 한국어를 지원한다고 주장하지만, 실제로 한국 사회의 현실을 온전히 반영하는 모델은 극히 드물다”며 “현재 LLM 대부분이 불충분하거나 저품질의 한국어 데이터에 기반해 학습됐으며, 이로 인해 언어적 성능이 제한되고 한국 문화와의 정서적 정렬이 부족하다는 문제를 확인했다”고 설명했다.
이어 “문화적 대표성과 품질을 갖춘 한국어 텍스트를 선별하는 데이터 큐레이션 파이프라인을 먼저 구축했다”며 “여기에 합성 데이터 생성 기술을 접목해 텍스트 수급의 다양성과 품질을 확보했다”고 덧붙였다.
◆‘안전한 AI’ 구축도 과제…편향·폭력 배제 조치 집중
KT는 믿:음2.0의 또 다른 강점으로 ‘안전한 AI’를 내세웠다. 아직까지 글로벌 대표 AI 모델들에게서도 AI를 두고 다양한 안전 관련 논란이 끊이질 않고 있는 상황이다. 예컨대, AI의 답변이 특정 인종을 차별하고 있거나, 범죄 방법 등을 알려주는 등 문제다.
이에 대응하기 위해 KT는 내부적으로 신뢰성 확보를 위해 ‘책임있는 AI 프레임워크(Responsible AI Framework)’를 구축했다. 이곳은 내외부 전문가들로 구성돼 AI 투명화, 지속가능성, 신뢰성, 포용성 등 다양한 항목을 기반으로 모델 개발 의사결정을 진행한다.
이에 따라 믿:음2.0은 3가지 핵심 평가 원칙을 기반으로 작동한다. 구체적으로 ▲무해성(harmlessness) ▲정직성(honesty) ▲AI 역할 행위의 일관성(consistency in AI role behavior) 등이다.
‘무해성’은 각종 해로운 콘텐츠를 AI 모델이 자체 평가해 답변에서 제외하는 등 조치한다. KT ‘믿:음2.0’은 총 7가지 범주 ▲성적인 콘텐츠 ▲법적 위반 ▲폭력 ▲편향 및 차별 ▲정치 ▲재난 ▲욕설 및 비속어 등을 중점적으로 평가한다.
‘정직성’ 원칙을 통해서는 보건의료, 법률, 금융 등 전문 영역에서의 허위 또는 오해를 유발할 수 있는 정보 제공을 회피하도록 설계됐다. AI 모델의 할루시네이션(환각) 문제는 다양한 문제를 불러올 수 있지만, 특히 신체·생명·재산 등 관련된 부정확한 정보는 보다 치명적인 결과를 낼 수 있기에 해당 부분에서 보다 안전장치를 강화한 셈이다.
‘AI 역할 행위의 일관성’은 AI가 인간처럼 묘사되는 표현을 피해 부적절한 역할극 등 사회적 논란 여지를 두지 않도록 조치한 부분이다. 이같은 조치는 해외에서 최근 논란이 되고 있는 AI챗봇 역할극 등의 문제를 피하기 위한 것으로 해석된다. CNN 등 외신 보도에 따르면, 텍사스주 일부 학부모는 자신들의 자녀가 AI 역할놀이 과정에서 부적절한 콘텐츠에 노출됐다고 주장하며 소송을 제기한 사례도 있다.
믿:음2.0은 이러한 3가지 핵심 원칙을 기반으로 유해 여부가 맥락이나 언어에 크게 의존하는 ‘경계선 질문(borderline queries)’에 대한 정교한 가이드라인을 적용했다는 것이 KT 측 설명이다.
KT는 안전성 문제와 더불어 데이터 확보 과정에서 발생 가능한 저작권 문제에도 신경썼다. AI 학습에 필요한 데이터를 확보하는 과정에서 적절한 경로를 통해 습득되지 않은 데이터는 모두 학습에서 배제되도록 조치해 향후 발생할 수도 있는 저작권 리스크에 대응했다는 설명이다.
믿:음2.0 개발을 주도한 신동훈 KT GenAI 랩장은 온라인으로 개최된 ‘KT AI 기술 브리핑’에서 “AI 학습에 필요한 데이터 라이센스 문제를 해결하기 위해 학습에 필요한 도서나 문서 등은 전부 데이터 얼라이언스 등을 통해 수급하거나, 합법적인 경로로 구매한 데이터들만 활용하고 있다”며 “데이터 셋 중에도 상업적으로는 이용이 불가능하거나 혹은 그런 판단이 모호한 경우 배제했다”고 설명했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
