“사투리, 자율주행, 암진단” AI 학습용 데이터 170종 공개… AI 혁신 속도↑

아시아경제 원문
구은모
입력

2021.06.18 10:02

최종수정

2021.06.18 11:03

주소복사가 완료되었습니다

<이미지를 클릭하시면 크게 보실 수 있습니다>

[아시아경제 구은모 기자] 인공지능(AI) 음성비서가 경상도, 전라도, 제주도 등 각 지역 방언까지 정확하게 인식할 수 있도록 한국어 방언 음성 데이터가 개방된다. 골프 스윙을 교정할 때 사용할 수 있는 스포츠 동작, 자율주행 기술 개발에 필수적인 차선 인지 영상은 물론, 치매·암·피부질환 진단 정확도를 높일 수 있는 의료영상 데이터도 공개된다. 양질의 학습용 데이터가 산업계로 흘러들면서 국내 AI 산업의 혁신에도 한층 속도가 붙을 것으로 보인다.

18일 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI학습용 데이터 170종을 AI 통합 플랫폼 ‘AI허브’를 통해 이날부터 순차적으로 개방한다고 밝혔다. 디지털 뉴딜의 주요 프로젝트인 '데이터 댐' 구축의 일환으로 추진되는 AI학습용 데이터 구축 사업은 AI 성능을 개선하는 데 필요한 데이터를 정부가 직접 대량 구축해 누구나 활용할 수 있게 한 사업이다.

이번 개방으로 AI 산업계가 활용할 수 있는 학습용 데이터의 양이 대폭 늘어나게 됐다. 분야 별로는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등 8개 분야 170종(4억8000만건)이다.

특히 민간에서 대규모로 구축하기 어려운 한국어 음성 데이터, 국내 도로주행 영상 데이터, 주요 암 및 질환 진단을 위한 의료영상데이터 등이 대거 포함됐다. 그간 산업계에서는 주로 해외 오픈데이터를 활용하기도 했으나, 한국어나 국내 실정을 제대로 반영하지 못해 AI 개발에 한계가 많았다. 과기정통부는 "AI 학습용 데이터는 구축과정의 대부분에 반복 수작업이 수반돼 상당한 시간과 비용 발생한다"며 "중소기업이나 스타트업은 물론 대기업도 자체적으로 대량 구축하기가 쉽지 않았다"고 전했다.

정부는 이날 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다. 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 오는 30일에 개방한다. 이번 데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 서울대·카이스트 등 48개 주요 대학, 서울대병원·아산병원 등 25개 병원 등 총 674개의 기업과 기관이 참여했다.

고윤석 NIA 지능데이터본부장은 “AI 기업이나 연구자들이 시간과 비용 문제로 학습용 데이터를 개별적으로 생산하기 어려운 상황에서 업계의 부담을 덜어주고 AI 산업발전을 촉진하기 위해 업계의 수요가 많은 핵심 데이터를 중심으로 구축이 이뤄지고 있는 것”이라고 설명했다.

산업계의 데이터 갈증이 일부 해소되면서 AI 산업의 혁신에도 도움을 줄 것으로 보인다. 대표적으로 지역별 방언 발화 데이터를 기반으로 사투리를 잘 인식하지 못했던 음성 기반 AI 서비스의 문제점을 해결하는 등 국민 체감도도 높아질 전망이다. 새롭게 추가된 자율주행 분야에는 국내 도로주행 영상뿐 아니라 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다양한 데이터를 포함돼 자율주행차 개발을 한층 앞당길 것으로 기대된다. 한 업계 관계자는 "자체 수집하기 어려운 장애물, 특수차선, 포트홀 등 다양한 객체가 포함돼 자율주행 기술개발에 크게 도움이 될 것"이라고 평가했다.

송경희 과기정통부 인공지능기반정책관은 “개방된 데이터는 그동안 데이터 부족으로 성능 개선에 어려움을 겪던 기업들이 AI 모델의 유효성을 높이는 데 기여할 것이며, 데이터 활용을 통한 시스템과 서비스 고도화 사례도 지속적으로 축적될 것”이라고 말했다.

이번에 공개된 데이터는 품질관리 전문기관인 한국정보통신기술협회(TTA) 등과 협력해 데이터 전주기 품질관리 체계를 마련하는 등 이전과 비교해 질적인 개선도 이뤘다는 평가다. 과기정통부와 NIA는 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영해 전문적 품질관리 지원체계를 구축했고, 주요 대기업과 스타트업, 대학 및 연구기관 등이 참여해 데이터 개방 전 활용성 검토를 진행해 실제 수요자가 요구하는 데이터 품질을 확보하려고 했다.

과기정통부와 NIA는 데이터 개방 후에도 9월말까지 3개월간 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선해나갈 계획이다. 아울러 ‘인공지능 데이터 활용협의회’도 이날 출범한다. 활용협의회는 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐으며, AI 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다.

인공지능 학습용 데이터 이용자 참여형 품질개선체계(안)

<이미지를 클릭하시면 크게 보실 수 있습니다>

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 강조했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

04.25 (목)

“사투리, 자율주행, 암진단” AI 학습용 데이터 170종 공개… AI 혁신 속도↑

아시아경제 주요 뉴스