컨텐츠 바로가기

12.21 (토)

[로터리] 한글이 통하는 AI

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

황종성 한국지능정보사회진흥원장

서울경제

<이미지를 클릭하시면 크게 보실 수 있습니다>



한글은 세계 최고의 문자지만 인공지능(AI) 세상에서는 아직 제대로 대접받지 못한다. 생성형 AI의 포문을 연 ‘챗GPT-3’가 학습한 데이터의 92%가 영어였다. 한글 자료는 0.1%에 그쳤다. 이렇게 학습량이 적으니 한국어를 쓰면 같은 일을 해도 성능이 떨어진다. 이는 비영어권의 공통 현상이기도 하다. 그래서 각국의 언어별로 생성형 AI가 영어를 쓸 때와 얼마나 다른 답을 내놓는지 측정하는 연구가 있을 정도다. 그 차이가 적지 않았다. 그나마 유럽 언어는 좀 나은 편이지만 한국어는 일본어와 함께 큰 격차를 보였다.

AI가 한글을 잘 쓰게 하는 방법은 크게 두 가지다. 하나는 직접 만드는 것이다. 한국어 AI를 개발하거나 해외 AI 모델을 한국어로 튜닝(조정)하는 것이다. 이런 노력이 AI 경쟁력을 높이는 데 큰 도움이 된다. 그래서 다른 나라들도 유사한 정책을 추진한다. 네덜란드 정부는 올해부터 ‘GPT-NL’이라는 자국어 AI 모델을 개발하기 시작했다. 한국과 달리 정부가 직접 발 벗고 나선 것이 특징이다. 다만 자국어 AI 개발은 기술 격차를 감수해야 한다. 네덜란드 정부는 내년에 완성될 자국 모델이 ‘GPT-3.5’ 정도의 수준으로 최신 모델과 3년의 기술 격차가 있을 것으로 예상한다.

두 번째 방법은 해외 AI 모델들이 한국어 능력을 키우도록 유도하는 것이다. 한국어 학습에 필수적인 방대한 양의 한글 데이터와 성능 측정 방법을 제공하면 많은 AI 모델들이 한글 자료의 학습량을 늘리고 한국어 성능을 높일 수 있다. 물론 오픈AI 같은 유료 AI 서비스까지 지원해야 하는지는 고민이 더 필요하지만 최소한 한국에서도 많이 사용하는 오픈소스 AI 모델들에 대해서는 한국어 실력을 높이도록 지원하는 것이 필요하다.

영어와 한국어의 언어 장벽이 낮아지면 그만큼 한국어 이용자의 선택 폭이 넓어진다. 아울러 AI 서비스 개발에 오픈소스 모델을 활용하는 국내 스타트업에도 큰 도움이 된다. 최근 중국 AI 모델들의 한국어 실력이 좋아져 많은 스타트업들이 고민에 빠졌다. 한국어 성능을 보면 쓰고 싶은데 신뢰성이 낮아 주저하는 상황이다. 믿을 수 있는 한글 데이터를 제공해 다양한 국내외 오픈소스 모델들이 한국어 실력을 높이면 우리 스타트업의 경쟁력 강화에 큰 도움이 된다.

그제가 한글날이었다. 세종대왕께서 한글을 창제하신 이유는 사람들이 쉽게 익혀 날마다 쓰기 편하게 하는 것이었다. 이제는 AI가 한글을 쉽게 익혀 쓰도록 하는 것이 한글 정신을 살리는 길이 됐다. 다만 해외 AI의 한국어 실력을 지원할 때 우리 기업의 한국어 AI가 경쟁 우위를 잃지 않도록 각별한 주의도 필요하다. 여기서도 정부와 기업의 긴밀한 협력이 필요하다.

진동영 기자 jin@sedaily.com
[ⓒ 서울경제, 무단 전재 및 재배포 금지]

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.