주요 빅테크 기업들이 AI 기술 훈련을 위해 유튜브 동영상을 활용한 것으로 나타났다. [사진: 셔터스톡] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 주요 빅테크 기업들이 인공지능(AI) 기술 훈련을 위해 17만개 이상의 유튜브 동영상을 활용한 것으로 나타났다.
16일(현지시간) IT매체 엔가젯 등 주요 외신에 따르면 프루프 뉴스(Proof News)는 최근 조사를 통해 애플 등 빅테크가 유튜브 콘텐츠의 자막 파일을 제작자 동의 없이 AI 기술을 학습하는 데 사용한 것으로 확인했다.
이 자막 파일을 다운로드하는 작업은 AI 연구기관인 일루더에이아이(EleutherAI)가 수행했다고 한다. 비영리단체인 일루더에이아이의 본래 목적은 소규모 개발자와 학계에 교육 자료를 제공하는 것이지만, 해당 데이터 세트가 거대 기술 기업에서도 활용된 것.
이 데이터 세트에는 4만8000개 이상의 채널에서 온 유튜브 자막 파일이 포함되어 있었으며, 이는 애플뿐만 아니라 엔비디아, 엔트로픽 등에서도 사용되었다. 여기에는 전 세계 구독자 수 1위를 자랑하는 채널인 '미스터 비스트'(MrBeast), 기술 평론가 '마르케스 브라운리'(Marques Brownlee) 등 유명 크리에이터와 BBC, 뉴욕타임스(NYT) 등 주요 뉴스 매체의 영상 자막도 포함됐다.
유튜브는 세계 최대 콘텐츠 저장소로서, 대본뿐만 아니라 오디오, 비디오, 이미지도 풍부하게 보유하고 있어 AI 모델을 훈련시키기에 매력적인 데이터 세트로 평가받는다.
올해 초 미라 무라티 오픈AI 최고기술책임자(CTO)는 자사 AI 모델인 소라(Sora)를 훈련시키기 위해 유튜브를 참조했는지 여부에 대한 질문에 "사용된 데이터의 세부 사항에 대해서는 언급하지 않겠지만, 그것은 공개적으로 이용 가능한 데이터나 라이선스가 부여된 데이터였다"라며 말을 아낀 바 있다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.