컨텐츠로 건너뛰기
검색

"오픈AI의 모델, 학습한 저작권 콘텐츠를 '기억'하고 있어"

서울맑음 / 18.1 °
[박찬 기자]
AI타임스

(사진=셔터스톡)


오픈AI가 인공지능(AI) 모델을 저작권이 있는 콘텐츠로 훈련했다는 의혹에 신빙성을 더해주는 새로운 연구 결과가 공개됐다.

워싱턴대학교, 코펜하겐대학교, 스탠퍼드대학교 연구진은 최근 '대형언어모델(LLM)에서 교육 데이터 임프린트의 정보 기반 식별'이라는 논문을 온라인 아카이브에 게재했다.

이를 통해 'GPT-4'나 'GPT-3.5' 등 오픈AI의 LLM이 훈련 과정에서 특정 데이터를 '암기'했는지를 분석할 수 있다는 내용이다.

LLM은 기본적으로 '예측 엔진'이다. 방대한 데이터를 훈련하면서 패턴을 학습하고, 이를 바탕으로 다양한 결과물을 생성할 수 있게 된다.

대부분 출력은 학습 데이터를 그대로 복사한 것이 아니지만, 모델 학습 방식상 일부는 불가피하게 원문을 그대로 재생산하는 경우도 있다. 이미지 생성 모델은 학습에 사용된 영화의 스크린샷을 그대로 토해내는 사례가 발견됐고, 언어 모델은 뉴스 기사를 그대로 출력해 소송의 증거로 제시된 경우도 있다.

이번 연구는 '하이-서프라이즈(high-surprisal)'라는 단어에 주목한다. 이는 특정 문맥에서 통계적으로 드물게 등장하는 단어로, 예측하기 어려운 단어들을 말한다. 예를 들어, "잭과 나는 레이더가 윙윙거리는 가운데 조용히 앉아 있었다"라는 문장에서 '레이더'는 '엔진'이나 '라디오'라는 단어보다 등장할 확률이 낮기 때문에 하이-서프라이즈 단어로 간주한다.


AI타임스

연구진은 소설과 뉴욕 타임스 기사 일부에서 이런 단어들을 제거한 뒤, GPT 모델들에게 해당 단어를 맞춰보도록 했다. 모델이 정답을 맞힐 경우, 이는 해당 문장을 훈련 과정에서 암기했을 가능성이 있다는 설명이다.

테스트 결과, GPT-4는 '북MIA(BookMIA)'라는 저작권이 있는 전자책 샘플을 포함한 데이터셋에 수록된 소설의 일부 문장을 암기한 흔적을 보였다. 뉴욕 타임스 기사에서도 일부 암기 사례가 발견됐지만, 빈도는 낮았다.

연구진은 이번 연구 결과가 LLM 훈련 과정에 사용됐을 수 있는 '논란의 여지가 있는 데이터'에 대한 단서를 제시한다고 설명했다. "우리는 LLM을 조사할 도구를 제공하는 것이 목표로, 전체 AI 생태계에는 데이터 투명성이 더 필요하다"라고 밝혔다.


한편, 오픈AI는 그동안 저작권이 있더라도 공개된 데이터를 모델 개발에 활용하도록 허락해야 한다는 '공정 사용'을 주장해 왔다.

또 일부 콘텐츠에 대해서는 라이선스를 체결하고 있으며, 저작권자가 원할 경우 자신의 콘텐츠가 훈련에 사용되지 않도록 요청할 수 있는 '옵트아웃' 메커니즘도 제공 중이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>