컨텐츠 바로가기

11.18 (월)

“AI 데이터 저작권 걱정 그만”…크라우드웍스 데이터셋 판매사업 본격 시동

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털데일리 오병훈기자] 인공지능(AI) 테크 기업 크라우드웍스(대표 김우승)가 법적 리스크가 없는 고품질 데이터셋 유통·판매 사업을 본격 개시한다고 18일 밝혔다.

AI 시장에서 데이터 라이선스와 투명성이 강조되고 있다. EU(유럽연합)는 AI 기업들에게 학습 데이터 정보 공개를 의무화했고, 미국에서는 저작권 침해 소송이 증가하는 추세다. 실제로 지난 10월에는 다우존스와 뉴욕포스트가 AI 검색 스타트업 퍼플렉시티를 상대로 저작권 소송을 제기한 바 있다. 양사는 미디어 기업들이 생산하는 콘텐츠를 퍼플렉시티가 무임으로 이용하고 있는 실태와 관련해 시정조치를 내려달라는 취지로 뉴욕 남부 지방 법원에 소장을 제출했다.

이처럼 라이선스를 확보한 AI 학습용 데이터셋의 중요성이 커지는 가운데, 크라우드웍스가 검증된 데이터셋 유통에 나섰다.

크라우드웍스가 판매하는 데이터셋은 라이선스를 확보한 산업 특화 데이터셋이다. 데이터셋 라인업에는 ▲웍스원(WorksOne) 데이터셋 ▲광고 분석 ▲건강검진 결과 ▲전문 지식 질의응답(Q&A) ▲기업 정보 ▲도서 ▲뉴스 기사 등이 포함됐다. 저작권 침해, 개인정보보호 등 법적 리스크가 없어 기업이 활용하기에 용이하고, AI가 아닌 검증된 전문가가 구축해 전문성과 신뢰성이 높은 것이 특징이다.

먼저 웍스 데이터셋은 숫자, 문장, 글 등 기업에서 자주 사용하는 답변 형식이나 동사, 문체 등 AI가 기업이 선호하는 표현으로 답할 수 있도록 설계된 데이터셋이다. 대기업에서 15년 이상 기획업무에 종사한 베테랑 기획자들이 직접 데이터셋을 만들었다. 이 데이터셋을 학습한 크라우드웍스 소형언어모델(sLM) 웍스원은 타 모델과 비교 테스트에서 기업이 원하는 다양한 요구사항과 답변 유형을 만족하는 수준 결과물을 얻을 수 있었다.

광고분석 데이터셋은 국내 광고 1만여건 광고 데이터를 분석해 만들었다. 광고 정보, 타깃, 목표, 카피 표현방식, 티엠앰(T&M) 등 직접 구축한 메타 데이터가 담겼으며, 창의적인 AI 서비스 개발에 활용 가능하다.

이 밖에도 240개 국가 3억개 이상 최신 기업 정보를 포함하는 기업정보 데이터셋과 장르와 카테고리별 전자도서(e-book) 데이터셋, 1만5000여건 건강검진 결과 데이터셋, 5억건 이상 뉴스 기사 데이터셋, 16개 분야별 전문가가 생성한 전문지식 Q&A 데이터셋 등을 구매할 수 있다. 크라우드웍스 홈페이지 등을 통해 구매 문의가 가능하다.

크라우드웍스는 AI 기술 기반의 정확하고 까다로운 검수 작업을 거쳐 고품질 데이터를 제공하고 있다. 현재까지 누적 2억 6천만 개 이상의 AI 데이터를 구축한 풍부한 경험을 토대로, 탁월한 데이터 품질 관리 역량을 인정받아 국가 AI 데이터 표준화에도 기여했다. 앞으로 데이터 유통 시장이 활발해질 수 있도록 모빌리티, 테크, 법률, 교육, 미디어 등 다양한 특화 데이터 라인업을 확대할 계획이다.

김우승 크라우드웍스 대표는 “AI 프로젝트가 성공하려면 데이터 양적 확대보다 품질에 집중해야 한다”며 “양질 데이터가 부족한 상황에서 신뢰할 수 있는 데이터셋 공급을 통해 기업 AI 프로젝트 성공을 돕고 건강한 AI 생태계를 만들겠다”고 말했다.

한편, 글로벌 시장 조사 기업 마켓 데이터 포캐스트(Market Data Forecast)에 따르면 올해 글로벌 AI 학습 데이터셋 시장은 약 26억3000만달러(3조7000억원) 규모로 추정되며, 연평균 성장률 21.5%를 기록하면서 2028년까지 약 약 57억 3000만 달러 (8조원)에 이를 것으로 예상된다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.