“사투리부터 암진단 영상까지” 170종 ‘데이터 댐’ 본격 개방

헤럴드경제 원문
정태일
입력

2021.06.18 10:00

댓글 첫 댓글을 작성해보세요

주소복사가 완료되었습니다

-과기정통부·NIA ‘AI허브’에 8대 분야 데이터 개방

-음성·자연어, 자율주행, 헬스케어 등 4억8000만건

-혁신적 활용 목적 ‘인공지능 데이터 활용협의회’ 출범

-삼성전자, 현대차, SK텔레콤, LG, KT, 네이버 등 참여

데이터 댐 개념도 [과기정통부 제공]

[헤럴드경제=정태일 기자] 음성 AI(인공지능)가 경상도·전라도 등 각 지역 방언을 정확히 인식할 수 있도록 한국어 사투리 데이터가 풀린다. 버스 노선 주행 영상 등의 데이터를 공개해 자율주행차 기술 개발을 앞당기고, 유방암 등 암 진단 데이터까지 개방해 질병 진단 정확도를 높인다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 인공지능 학습용 데이터 8대 분야 170종(4억8000만건)을 ‘인공지능(AI) 허브’에 18일부터 개방한다고 밝혔다.

정부는 지난해 ‘디지털 뉴딜’ 일환으로 방대한 데이터를 비축해 필요 시 개방하는 ‘데이터 댐’ 정책을 발표한 가운데, 산업계·전문가·일반 국민 등이 참여해 구축한 데이터를 이번에 개방하는 것이다. 데이터 구축에는 국내 주요 인공지능·데이터 전문 기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 참여했다. 여기에 경력단절여성, 취업준비청년 등 4만여명의 일반 국민도 동참했다.

개방 데이터 분야 별로는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등으로 구성됐다.

특히 이달 30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능(AI) 서비스의 문제점을 해결할 수 있을지 주목된다. 실제 각 지역별 농어촌 주민 등의 실제 사투리 음성을 녹음해 방언 데이터로 구축했다. 데이터 개방 전 활용성 검토 결과 “자연스러운 방언이 수집됨”, “기존 서비스의 인식률이 12% 향상됨” 등의 긍정적 반응이 나왔다.

또 자율주행 데이터(21종)는 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 기존과 차별화된 데이터를 포함했다. 활용성 검토 결과 “특수 차선, 장애물, 포트홀 등 다양한 객체가 포함” 등이 대표적인 장점으로 꼽혔다.

개방되는 8대 분야 170종 데이터 이미지 [과기정통부 제공]

<이미지를 클릭하시면 크게 보실 수 있습니다>

이 같은 데이터들이 실제 현장에서 혁신적으로 활용될 수 있도록 과기정통부는 18일 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 개최했다. 협의회는 데이터 품질관리 전문기관인 한국정보통신기술협회(TTA)와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다. 주요 참여 기업은 삼성전자, 현대차, SK텔레콤, LG, KT, 네이버 등이다. 이들은 AI 허브 데이터 적극 활용 및 피드백을 통해 지속적으로 데이터 품질을 개선하고, 신규·추가 과제 기획 등에 협력할 예정이다.

이와 함께 NIA는 인공지능(AI) 허브 활용 환경을 대폭 개선한다. 본인인증 한 번만으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템을 개선한다. 데이터 활용을 위해 회원가입 혹은 최초 데이터 다운로드 신청 시 휴대전화 본인인증을 진행한 후, 활용 승인 절차 없이 다운로드 가능하다. 직관적인 데이터 탐색을 위해 올 하반기에는 데이터 검색체계를 ‘과제명 중심’에서 자동차, 표지판 등 ‘사물·객체’ 중심으로 개편할 계획이다.

이밖에 인공지능 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회도 추진한다.

과기정통부와 NIA는 170종의 데이터를 18일 60종을 시작으로 이달 말까지 순차적으로 개방할 예정이다. 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 6월 30일에 개방할 계획이다.

동시 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간 참여형 데이터 집중 개선기간을 운영한다. 인공지능(AI) 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, 데이터 품질 등 이용자 의견에 대응하는 TF를 운영한다.

임혜숙 과기정통부 장관은 “이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며“정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 강조했다.

killpass@heraldcorp.com

- Copyrights ⓒ 헤럴드경제 & heraldbiz.com, 무단 전재 및 재배포 금지 -

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

04.27 (토)

“사투리부터 암진단 영상까지” 170종 ‘데이터 댐’ 본격 개방

헤럴드경제 주요 뉴스