[취재수첩] 내 유튜브도, X도…오늘도 AI는 조용히 '학습 중' : zum 뉴스

[디지털데일리 조윤정기자] ‘좋아요’와 ‘업로드’ 버튼을 누른 그 순간, 인공지능(AI)은 또 한 명의 사용자를 학습하기 시작한다.

최근 유튜브와 엑스(X·옛 트위터) 를 비롯한 사회관계망서비스(SNS) 플랫폼이 사용자 콘텐츠를 AI 모델 학습에 활용하고 있는 사실이 드러나며 데이터 주권에 대한 논란이 확산되고 있다. 특히 사용자 본인의 명시적 동의 없이, 혹은 동의했다는 사실조차 인지하지 못한 채 생성된 방대한 데이터가 AI에 ‘조용히’ 흡수되고 있다는 점에서 사용자들에게 충격을 안기고 있다.

구글은 지난 19일(현지시간) 미국 CNBC를 통해, 유튜브 영상 라이브러리를 제미나이(Gemini)와 베오 3(Veo 3) 등 자사 AI 모델의 학습에 활용하고 있다고 밝혔다. 유튜브에 영상을 업로드하면, 이용자는 서비스 약관에 따라 해당 콘텐츠가 AI 학습에 사용되는 것에 자동으로 동의하게 된다는 것이 구글 측 설명이다.

유튜브에는 하루 평균 2000만개 이상의 영상이 업로드되며, 이는 전 세계 창작자들이 쏟아낸 디지털 자산이다. 구글 측은 “이전부터 유튜브 콘텐츠를 제품 개선에 사용해 왔고, 이는 AI 시대에도 마찬가지”라고 밝혔지만, 얼마나 많은 콘텐츠가 학습에 쓰이고 있는지는 공개하지 않았다. 크리에이터들에게 해당 사실을 별도로 고지하거나 명확한 선택권을 부여하지 않았다는 점에서, 창작물의 무단 활용이라는 지적이 제기된다.

엑스(X)도 예외는 아니다. 지난해 10월, 엑스는 개인정보처리방침을 개정해 사용자 동의 없이도 제3자가 AI 학습 목적으로 데이터를 수집·활용할 수 있도록 했다. 이는 엑스의 소유주 일론 머스크가 설립한 AI 스타트업 xAI가 자사 AI 모델 ‘그록(Grok)’을 훈련하기 위해 X 플랫폼 데이터를 활용하려는 움직임이다. 사용자는 설정을 통해 AI 학습을 거부할 수 있지만, 대부분의 이용자는 자신의 트윗이 학습에 활용된다는 사실조차 인지하지 못하고 있는 상황이다.

이에 유럽연합(EU) 주요 개인정보 규제기관은 "사용자 모르게 데이터 수집에 대한 동의를 얻으려는 명백한 시도"라고 비판하며 지난 4월 엑스의 유럽 일반데이터보호규정(GDPR) 위반 여부 조사에 착수했다.

문제는 이런 플랫폼들이 창작자뿐 아니라 일반 이용자들의 콘텐츠까지 ‘학습 가능한 데이터’로 취급하고 있다는 점이다. 특히 SNS는 단순한 정보 공유 수단을 넘어, 개인의 감정, 가치관, 정치적 성향까지 반영된 매우 사적인 공간이다. 특히 한국은 SNS 이용률이 세계적으로 높은 국가 중 하나다.

언론진흥재단의 '2024 소셜미디어 이용자 조사' 결과에 따르면, 이용자들은 평균 4.25개의 소셜미디어를 사용 중이다. 카카오톡에 이어 유튜브(84.9%), 인스타그램(38.6%)이 뒤를 이으며, 다양한 플랫폼에 글, 사진, 영상을 자발적으로 업로드하고 있다. 그중에는 자기소개, 감정 표현, 여행 기록, 가족 이야기 등 ‘개인성’이 짙은 콘텐츠도 많다.

하지만 이런 콘텐츠조차 AI가 ‘학습할 수 있는 데이터’로 분류되는 순간, 창작자 혹은 개인이 해당 콘텐츠에 대해 가졌던 권리는 모호해진다. 예컨대, 게시글 속 이름, 위치 정보, 얼굴 사진 등은 개인을 식별할 수 있는 정보임에도 AI 학습 과정에서 별도의 필터링 없이 수집될 가능성이 있다. 사소해 보이는 한 장의 사진, 한 줄의 글도 AI에게는 ‘프로파일링 재료’로 전환될 수 있는 셈이다.

AI가 SNS 데이터를 학습하면서 발생할 수 있는 또 다른 위험은 ‘편향(bias)의 내재화’다. SNS는 사용자의 정치적 견해, 인종적 정체성, 성별 인식 등 편향된 정보가 자주 노출되는 공간이다. 알고리즘이 이 데이터를 여과없이 그대로 학습하면, 사회적 고정관념이나 차별적 시각을 AI가 내면화할 가능성도 크다. 실제로 지난 5월 머스크의 챗봇 '그록(Grok)'이 사용자 질문과 무관하게 남아프리카공화국의 '백인 대학살'을 주장하며 논란을 빚은 바 있다.

더 나아가, SNS에 업로드된 콘텐츠에는 저작권이 적용되는 창작물도 다수 포함돼 있다. 창작자가 올린 이미지나 영상은 명백한 저작권 보호 대상임에도, 사전 허락 없이 AI가 이를 학습해 유사한 콘텐츠를 생성하는 것은 저작권법 위반 소지가 있다. 실제로 미국에서는 작가, 아티스트, 언론인들이 오픈AI, 메타 등을 상대로 자신들의 창작물이 무단 학습됐고, 그 결과물이 원본과 유사하다는 이유로 집단소송을 제기하고 있는 상황이다.

현재 구글, 엑스 등 일부 플랫폼은 제3자의 접근을 제한하거나 API를 차단하는 방식으로 데이터를 보호하는 듯한 조치를 취하고 있지만, 이는 경쟁사의 접근만 막을 뿐 자사 AI가 사용자 데이터를 독점적으로 활용할 수 있는 구조를 강화하고 있다. 결과적으로 콘텐츠 생산자는 AI에게 데이터를 ‘기부’하고, 플랫폼과 AI 기업은 그 위에 수익 사업을 쌓는 기형적인 구조가 고착되고 있다.

‘공짜 점심이 없듯 ‘공짜 데이터’도 없다. 사용자가 자발적으로 남긴 흔적이 AI라는 기술을 뒷받침하고 있는 지금, 플랫폼은 그 책임을 외면해서는 안 된다. 개인의 일상과 창작이 누군가의 ‘학습 재료’가 되는 세상에서, 최소한 우리가 가져야 할 권리는 그것이 학습 중이라는 점을 ‘알고 있는 것’이다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

이 기사의 카테고리는 언론사의 분류를 따릅니다.