컨텐츠로 건너뛰기
검색
디지털투데이 언론사 이미지

AI 학습의 그림자…엔비디아, 불법 해적판 사이트와 데이터 거래 시도

디지털투데이
원문보기

AI 학습의 그림자…엔비디아, 불법 해적판 사이트와 데이터 거래 시도

속보
트럼프 "그린란드 미국 병합 즉각 협상…무력은 안 쓸 것"
[AI리포터]

[디지털투데이 AI리포터] 엔비디아가 인공지능(AI) 모델 학습을 가속하기 위해 대규모 해적판 도서 사이트와 접촉한 정황이 법원 문서를 통해 드러났다. 엔비디아를 둘러싼 집단소송 과정에서 공개된 수정 소장에 따르면, 회사 내부 팀이 불법 콘텐츠를 보유한 것으로 알려진 'Anna's Archive'와 직접 협의에 나섰던 것으로 나타났다.

20일(현지시간) 온라인 매체 기가진에 따르면, Anna's Archive는 스스로를 '인류 역사상 최대 규모의 쉐도우 라이브러리'라고 소개하는 해적판 도서 사이트다. 엔비디아는 AI 학습에 필요한 대규모 텍스트 데이터를 확보하기 위해 이 사이트를 통해 불법 도서를 수집하려 한 것으로 소장에는 적시됐다.

이번 논란은 엔비디아가 2024년 AI 모델 훈련에 해적판 도서 데이터셋 '북3(Book3)'를 사용했다는 의혹으로 여러 작가들로부터 소송을 당하면서 불거졌다. 당시 엔비디아는 "책은 AI 모델에게 확률적 상관관계에 불과하며, 학습 목적의 사용은 페어 유스에 해당한다"고 주장했다. 그러나 원고 측은 "엔비디아가 치열한 AI 경쟁 속에서 데이터 확보를 위해 저작권을 의도적으로 침해했다"며 강하게 반박했다.

수정된 소장에 따르면, 엔비디아 데이터 전략팀은 Anna's Archive 측과 접촉해 AI 전처리용 데이터 확보 방안을 논의했다. 이 과정에서 Anna's Archive는 고속 접근 권한 제공을 위해 수만 달러의 비용이 필요하다고 답변한 것으로 전해졌다. 원고 측은 엔비디아가 해당 데이터가 불법적으로 수집된 것임을 인지하고 있었음에도, 내부 승인 절차를 거쳐 최대 500TB 규모의 데이터를 확보하려 했다고 주장했다.

또한 소장에는 엔비디아가 단순히 내부 학습에 데이터를 활용한 수준을 넘어, 고객들이 북3가 포함된 대형 데이터셋 '더 파일(The Pile)'을 자동으로 다운로드할 수 있도록 스크립트와 관련 도구까지 제공했다는 내용도 담겼다. 이는 엔비디아가 저작권 침해의 유통 구조를 사실상 확대했다는 것이 원고 측의 주장이다.

저작권 침해 이슈를 다뤄온 토렌트프릭(TorrentFreak)은 "대형 테크 기업이 Anna's Archive와 협력한 정황이 법원 문서를 통해 공개된 것은 이번이 처음"이라며 "이번 소송이 Anna's Archive의 존재와 영향력을 오히려 널리 알리는 계기가 될 수 있다"고 분석했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>