컨텐츠 바로가기

04.19 (금)

강원·제주 사투리 말뭉치 담은 'AI 데이터댐' 열린다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[머니투데이 차현아 기자] [헬스케어·자율주행 등 170종 데이터 18일 개방

674개 기관·국민이 수집한 데이터 총 4억8000만건

9월까지 이용자 참여 통해 데이터 품질 집중 개선]

머니투데이

AI

<이미지를 클릭하시면 크게 보실 수 있습니다>


한국어 사투리 말뭉치 등 4억8000만건의 대규모 인공지능(AI) 데이터가 민간에 공개된다. 국내 기업 등 민간의 AI 서비스 개발에 한층 속도가 붙을 전망이다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI 학습용 데이터 170종, 4억8000만건을 AI허브(aihub.or.kr)를 통해 18일부터 순차적으로 개방한다고 밝혔다.

공개된 AI허브 데이터의 종류는 △음성 39종 △헬스케어 32종 △자율주행 21종 △국토환경 12종 △농축수산 14종 △안전 19종 △기타 18종 등이다. 산림수종 이미지와 스포츠 동작 영상, 가축행동 영상, 노후 시설물 이미지, 패션상품 이미지 등 다양한 데이터가 포함됐다.

데이터 수집에는 정부와 국내 AI·데이터 전문기업, 주요 대학, 병원 등 총 674개 기관이 참여했다. 일반 국민 4만여명도 데이터 가공과 수집에 힘을 보탰다.

강원도와 경상도, 전라도, 제주도 등 각 지역 사투리 음성은 스타트업 솔트룩스와 경북대학교 산학협력단 등 17개 기관 관계자가 직접 지역을 찾아 사투리를 정확히 구사하는 어르신의 목소리를 녹음한 것이다. 선박해양플랜트연구소와 산엔지니어링 등 네 개 기관 소속 전문가는동해와 서해, 남해에서 해상 객체 이미지를 직접 촬영했다.

개인정보 유출을 막기 위해 이미지와 영상 데이터는 사전에 정보 제공동의를 받은 것만 수집했다. 한국어 텍스트 같은 개인정보가 포함될 수 있는 데이터는 실제 자료가 아닌 직접 제작한 것만 활용했다. CCTV 영상 역시 다양한 시나리오를 바탕으로 배우가 연기한 영상으로 제작했다. 병원에서 제공받은 컴퓨터단층촬영(CT) 영상은 개인을 식별하기 어려운 영상만 골라 학습용 데이터로 따로 가공했다.


"데이터 갈증 해소" 국내 AI 확산 계기될까

머니투데이

<이미지를 클릭하시면 크게 보실 수 있습니다>


국내 산업계는 그간 '한국형 AI 학습용 데이터' 기근에 시달렸다. 국내 AI기업들은 서비스 개발에 주로 해외 기관의 오픈데이터를 활용한다. 그러다보니 국내 이용자 전용 AI 서비스 개발에 어려움이 많았다. NIA에 따르면 국내 기업의 수요가 가장 많은 AI 데이터는 국내 도로 환경을 담은 자율주행 데이터나 한국어 사투리 등 자연어 음성이다.

과기정통부가 2017년부터 AI허브를 만들고 학습용 데이터를 쌓아 온 이유다. AI 허브 이용률은 빠르게 늘고 있다. 이용자는 2019년 4439명에서 지난해 1만3092명으로 3배가 됐고, 활용횟수도 같은 기간 1만6177회에서 4만9085회로 늘었다. 과기정통부는 지난해부터 디지털 뉴딜 정책의 일환으로 AI 허브를 규모를 대폭 확대해 추진하고 있다. 과기정통부 관계자는 "데이터 댐 개방으로 지역별 방언을 포함한 한국어, 국내 주요 도로와 의료영상 데이터가 대폭 늘어나 AI 서비스 개발이 한층 빨라질 것"이라고 말했다.

데이터 품질 관리 체계도 마련했다. 데이터 품질 기준을 세우고 검증하는 역할은 정보통신기술협회(TTA)가 맡고 있다. 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 품질자문위원회도 운영 중이다. 데이터 개방 전 네이버와 LG, 삼성전자 등 대기업과 스타트업, 연구기관 등 20여개 기관은 데이터 활용성도 검토했다.

데이터 댐을 실제 활용한 기업들은 서비스 품질 개선에 도움이 됐다는 의견을 내놨다. A대기업은 "기존 서비스에 데이터를 적용해보니 음성 인식율이 최대 12% 향상됐다"고 전했다. B스타트업도 "자체적으로 수집하기 어려운 장애물과 특수 차선, 포트홀 등 도로의 다양한 객체가 데이터에 포함돼, 자율주행 기술개발에 큰 도움이 될 것 같다"고 밝혔다.

과기정통부는 헬스케어 등 개인의 민감한 정보가 포함될 우려가 있는 데이터 59종은 최종 검증을 거쳐 오는 30일에 개방할 계획이다. 9월 말까지는 이용자 의견을 수렴해 서비스를 개선하는 기간으로 운영한다. 임혜숙 과기정통부 장관은 "정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는데 지원을 아끼지 않겠다"고 강조했다.

차현아 기자 chacha@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.