(사진=셔터스톡) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
하버드 대학교가 전 세계 누구나 저작권 제약 없이 자유롭게 고품질 학습 데이터에 접근할 수 있는 대규모 인공지능(AI) 학습 데이터셋을 공개했다. 비용 문제 등 데이터셋에 접근하기 어려운 스타트업 등을 돕자는 취지인데, 구글과 마이크로소프트(MS), 오픈AI 등이 이를 지원한 것으로 알려져 주목됐다.
하버드대는 12일(현지시간) 100만권의 공공 도메인 도서를 AI 훈련 데이터셋으로 공개한다고 발표했다.
이는 기존에 주로 활용되던 '북3(Books3)' 데이터셋보다 약 5배 더 큰 규모다. 디킨스, 단테, 셰익스피어 등 더 이상 저작권 보호를 받지 않는 다양한 장르와 언어의 작품을 포함하고 있다.
특히 이 데이터셋은 빅테크의 도움으로 구축할 수 있었다.
데이터는 구글의 책 스캔 프로젝트인 '구글 북스(Google Books)'를 통해 구축했다. 또 오픈AI와 MS의 재정적 지원을 받았다.
이 데이터셋은 AI 연구소나 스타트업 등 누구나 사용할 수 있도록 설계됐다. 자연어 처리(NLP)와 기계 학습, AI 개발 등 다양한 분야에서 혁신을 촉진하고 협업을 장려하려는 의도라는 설명이다.
프로젝트를 주도한 하버드 데이터 이니셔티브 연구소(IDI) 그렉 레퍼트 대표는 "기술 거대 기업이 사용하는 방대한 데이터셋에 접근할 수 없는 소규모 AI 개발자에게 경쟁 환경을 균등하게 만들기 위한 것"이라고 취지를 밝혔다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.