프루프뉴스 공개...미국 빅테크 기업
유튜브 4만8000개 채널서 무단 수집
책, 웹사이트, 사진, SNS 등도 활용
데이터셋 기업 엘루서AI가 제공
유튜브 4만8000개 채널서 무단 수집
책, 웹사이트, 사진, SNS 등도 활용
데이터셋 기업 엘루서AI가 제공
빅테크 기업 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
인공지능(AI) 기업들이 지식재산권 보호를 강조하고 있지만, 대량의 데이터를 사용자 허용 없이 무단 사용해 논란이다.
프루프뉴스(Proof News)에 따르면, AI 기업들이 자사의 인공지능 모델을 훈련하기 위해 창작자들이 만든 책, 웹사이트, 사진, 소셜 미디어 게시물을 무단으로 수집했다. 특히 이들은 유튜브 자막을 무단 수집해 AI 학습에 사용했다. 조사 결과 4만8000개 이상의 채널에서 17만3536개의 유튜브 동영상 자막이 도용됐다. 사용된 데이터셋은 칸 아카데미(Khan Academy), MIT, 하버드(Harvard) 등 온라인 교육 학습 채널은 물론 월스트리트 저널(The Wall Street Journal), NPR, BBC 등이다. 아울러 스티븐 콜베어(The Late Show With Stephen Colbert)의 레이트 쇼, 존 올리버(John Oliver)의 라스트 위크 투나잇(Last Week Tonight), 지미 키멜 라이브(Jimmy Kimmel Live)도 포함된 것으로 알려졌다.
프루프뉴스는 미스터비스트(MrBeast), 마르퀴스 브라운리(Marques Brownlee), 잭셉틱아이(Jacksepticeye), 피디파이(PewDiePie) 등 유명 유튜버들의 동영상도 AI 훈련에 사용됐다고 밝혔다. 이에 대해 쇼 진행자인 데이비드 팍먼은 자신의 동영상이 무단으로 사용된 것에 대해 불만을 드러냈다. 그는 “AI 기업들이 돈을 벌었다면 자신도 보상받아야 한다”면서 “이것은 내 생계이며, 콘텐츠를 만드는 데 시간, 자원, 돈, 인력을 투입했다”고 말했다.
무단 활용 프로세스는 이렇다. 엘루서AI(EleutherAI)라는 AI 데이터셋 기업이 파일(Pile)이라는 대규모 자연어 처리 데이터셋을 개발해 각사에 공급했다. 파일을 활용한 기업은 애플 엔비디아 세일스포스인 것으로 나타났다. 문제는 파일에는 대량의 무허가 데이터가 포함됐다는 점이다. 데이터 소스 확보는 오늘날 AI 경쟁의 한축을 담당하고 있다. AI 기업들이 확보한 데이터 목록을 비밀에 부치는 이유다.
하지만 이 역시 지속되지 못할 전망이다. EU가 AI법안을 발효하면서 향후 AI 챗봇 기업은 학습한 데이터 리스트를 전면 공개해야한다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.