전직 연구원 NYT에 폭로
챗GPT 훈련용 데이터 수집
저작권 고려 않고 이뤄져
AI기업들 저작권 위반 줄소송 몸살
챗GPT 훈련용 데이터 수집
저작권 고려 않고 이뤄져
AI기업들 저작권 위반 줄소송 몸살
챗GPT를 선보인 오픈AI가 챗GPT를 개발하는 과정에서 저작권을 무시하고 인터넷에서 다량의 데이터를 수집해 AI 훈련에 사용했다는 폭로가 제기됐다. [로이터연합뉴스] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
전 세계적으로 화제를 불러 일으킨 온라인 챗봇 챗GPT를 선보인 오픈AI에서 근무했던 전직 연구원이 오픈AI가 저작권법을 위반했다고 폭로했다. 최근 AI(인공지능) 기업들이 저작권 소송에 휘말린 가운데 또 다른 폭로가 나오면서 논란이 되고 있다.
23일 뉴욕타임스(NYT) 등 외신과 업계에 따르면 오픈AI에서 약 4년간 인공지능(AI) 연구원으로 일한 수치르 발라지는 “오픈AI가 챗GPT를 개발하면서 저작권을 신경 쓰지 않은 채 인터넷상에 유통되는 데이터를 자유롭게 사용할 수 있다고 생각했다”고 주장했다.
발라지에 따르면 그는 오픈AI 재직 강시 챗GPT 훈련을 위해 방대한 양의 인터넷 데이터를 수집하고 정리하는 업무를 담당했다. 오픈AI가 출시된 뒤 그는 고민 끝에 회사가 저작권이 있는 데이터를 무단 사용하는 것이 위법이며 챗GPT와 같은 기술이 인터넷 세상을 해치고 있다는 결론에 도달했다.
NYT에 따르면 발라지는 AI 기업들이 저작권이 있는 데이터를 활용해 기술을 개발하는 방식에 대해 공개적으로 발언한 내부자 중 한 명이다. 그는 결국 지난 8월 오픈AI를 퇴사했다.
발라지는 “AI 기업들이 챗봇을 학습시키는 데 활용되는 디지털 데이터를 생성한 개인, 기업, 인터넷 서비스의 상업적 생존 가능성을 파괴하고 있다”며 “인터넷 생태계 관점에서 봤을 때 지속 가능한 모델이 아니다”고 강조했다.
오픈AI는 “공정 사용 및 관련 원칙에 의해 보호되고, 오랫동안 널리 인정된 법적 판례에 의해 뒷받침되는 방식으로 인공지능 모델을 구축한다”는 성명을 통해 발라지의 의견을 반박했다
최근 오픈AI를 비롯한 AI기업들은 저작권과 관한 여러 소송, 비판에 직면해 있다. 인터넷에 유통되는 기사를 비롯한 방대한 자료를 저작권을 무시한 채 마구잡이로 수집해 자사 AI 모델 학습에 이용한다는 것이다.
월스트리트저널(WSJ) 모회사인 다우존스와 뉴욕포스트는 지난 21일 AI 스타트업 ‘퍼플렉시티 AI’를 상대로 저작권 및 상표권 침해 소송을 제기했다.
NYT는 지난해 오픈AI가 AI 모델을 훈련하는 과정에서 자사의 콘텐츠를 도용했다며 소송을 제기했고 이달 초 퍼플렉시티에 저작권 침해 중단을 요구하는 내용증명도 발송했다.
이밖에 시카고 트리뷴 등 8개 신문사도 지난 4월부터 오픈AI와 마이크로소프트(MS) 등을 상대로 소송을 진행 중이며, 6월에는 미국 탐사보도 전문 비영리단체 탐사보도센터(CIR)도 유사한 소송을 제기했다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.