컨텐츠 바로가기

04.19 (금)

국산 AI 엑소브레인, “경산돈데” 같은 구어체도 알아듣는다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
중앙일보

ETRI 엑소브레인 로고 [사진 ETRI]


“나 경상돈데”

인공지능(AI)은 이 말을 알아들을 수 있을까. ‘경상돈데’는 ‘경상도인데’의 구어체다. ‘경상도+인데’라는 축약 표현의 메커니즘을 알아야 이해할 수 있다. 글자를 물리적으로만 해석해 ‘경상돈+데’로 인식해버리면 ‘경산돈’이라는 단어가 없기 때문에 오류가 생길 수 있다. 그동안 AI가 구어체를 제대로 알아듣지 못했던 이유다.

이런 구어체를 AI가 이해할 수 있는 기술이 국내 연구진에 의해 개발됐다. 한국전자통신연구원(ETRI)은 문어체를 넘어 구어체 대화까지 분석할 수 있는 API를 개발해 공개했다고 6일 밝혔다. API는 누구나 응용프로그램을 개발할 수 있도록 공개된 인터페이스다. 자주 쓰이는 사투리들도 일부 알아들을 수 있다.

ETRI가 자체 개발한 언어 AI ‘엑소브레인’(Exobrain)은 이미 상용화가 돼 한컴오피스 2020 등에 쓰이고 있다. 연구진은 기존 문어체 분석 기술에 구어체까지 학습하도록 해 사람의 대화를 분석할 때 나타나는 오류를 최대 41%까지 줄였다. 앞서 엑소브레인은 2016년 EBS ‘장학퀴즈’에 출연해 인간 참가자들을 제치고 우승을 차지했다.

중앙일보

2016년 11월 ETRI의 인공지능 엑소브레인이 퀴즈쇼 왕중왕전에서 학생들을 제치고 1등을 했다. [사진 ETRI]

<이미지를 클릭하시면 크게 보실 수 있습니다>


고유명사 이해하고, 사투리 알아듣는 AI

여기에는 한국어 의미의 최소 단위를 분석하는 ‘형태소 분석 기술’과 ‘개체명 인식 기술’이 적용됐다. 개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술이다. 예를 들어 ‘국민은행’이라는 단어가 명사 ‘국민’과 ‘은행’의 결합이 아닌 은행의 고유 명칭이라는 점을 인식하는 기술이다. 형태소 분석은 한국어 의미의 최소 단위를 분석하는 기술로, 한국어 처리에 있어 필수 기술이다. ‘경상돈데’를 이해하는 것도 이 기술이 적용됐을 때 가능하다.

중앙일보

ETRI 엑소브레인 활용 모식도 [사진 ETRI]

<이미지를 클릭하시면 크게 보실 수 있습니다>


그동안 구어체 언어 분석 기술을 개발하는 데 있어 큰 걸림돌은 학습 데이터가 부족하다는 점이었다. 기계학습 및 딥러닝 기술은 대규모 학습데이터를 필요로 하는 데, 구어체 분야는 데이터 확보조차 어려운 게 현실이다. 실제 개체명 인식 학습데이터의 경우 문어체는 약 27만 건이지만 구어체는 10분의 1 수준인 2만5000건 그친다.

연구팀은 ‘전이학습’(transfer learning)과 ‘데이터 증강’(data augmentation) 기법을 활용해 데이터 부족의 한계를 극복했다. 이미 존재하는 다른 분야의 학습 모델과 소량의 학습 데이터를 재사용하는 방식이다. 연구팀은 기본 학습을 문서체로 하고, 문서체의 데이터를 활용해서 구어체도 학습하게 했다. 적용 결과 구어체 분석 API는 기존 문어체 분석 API와 비교해 형태소 분석과 개체명 인식 성능이 각각 5%, 7.6% 개선된 것으로 나타났다. 분석 오류도 각각 41.7%, 39.4% 감소했다.

이는 향후 국산 AI 시장의 폭을 넓히는 데도 도움을 줄 것으로 보인다. 엑소브레인 사업단은 최근 3년간 기술이전 22건과 사업화 17건을 완료했다. 외국산 AI 솔루션의 국내시장 잠식을 막는 동시에 응용 서비스의 폭을 넓히는 게 목표다. 임준호 ETRI 언어지능연구실 책임연구원은 “기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발되었음에도 구어체 분야에 많이 적용되고 있었다”며 “이번 구어체 언어분석 기술 공개로 국내 AI 시장이 더욱 활성화되길 기대한다”고 밝혔다.

권유진 기자 kwen.yujin@joongang.co.kr

중앙일보 '홈페이지' / '페이스북' 친구추가

이슈를 쉽게 정리해주는 '썰리'

ⓒ중앙일보(https://joongang.co.kr), 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.