스타트업 지원용 대규모 데이터셋 구축에 구글·MS·오픈AI 지원

AI타임스 원문
박찬
입력

2024.12.13 18:00

최종수정

2024.12.13 20:10

주소복사가 완료되었습니다

[박찬 기자]

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>

하버드 대학교가 전 세계 누구나 저작권 제약 없이 자유롭게 고품질 학습 데이터에 접근할 수 있는 대규모 인공지능(AI) 학습 데이터셋을 공개했다. 비용 문제 등 데이터셋에 접근하기 어려운 스타트업 등을 돕자는 취지인데, 구글과 마이크로소프트(MS), 오픈AI 등이 이를 지원한 것으로 알려져 주목됐다.

하버드대는 12일(현지시간) 100만권의 공공 도메인 도서를 AI 훈련 데이터셋으로 공개한다고 발표했다.

이는 기존에 주로 활용되던 '북3(Books3)' 데이터셋보다 약 5배 더 큰 규모다. 디킨스, 단테, 셰익스피어 등 더 이상 저작권 보호를 받지 않는 다양한 장르와 언어의 작품을 포함하고 있다.

특히 이 데이터셋은 빅테크의 도움으로 구축할 수 있었다.

데이터는 구글의 책 스캔 프로젝트인 '구글 북스(Google Books)'를 통해 구축했다. 또 오픈AI와 MS의 재정적 지원을 받았다.

이 데이터셋은 AI 연구소나 스타트업 등 누구나 사용할 수 있도록 설계됐다. 자연어 처리(NLP)와 기계 학습, AI 개발 등 다양한 분야에서 혁신을 촉진하고 협업을 장려하려는 의도라는 설명이다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

12.14 (토)

스타트업 지원용 대규모 데이터셋 구축에 구글·MS·오픈AI 지원

AI타임스 주요 뉴스