컨텐츠 바로가기

06.04 (화)

글로벌 칼럼 | 힘의 원천이 모두 사라진 후 AI는 무엇을 학습할까?

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
구글 AI 오버뷰와 오픈AI GPT-4o와 같은 최신 생성형 AI 도구가 세상을 바꿀 것이라는 생각은 틀리지 않았다. 그렇게 될 것이다. 하지만 그 변화가 더 나은 방향을 향할까?

두 AI 도구와 다른 생성형 AI 프로그램을 사용해 본 결과 여전히 환각이 발생하기는 하지만 설득력이 강화됐다는 것을 발견했다. 좋은 소식은 아니다.
ITWorld

ⓒ Getty Images Bank

<이미지를 클릭하시면 크게 보실 수 있습니다>



뛰어난 연구자와 기술 저널리스트의 강점은 사실과 환상을 능숙하게 구분한다는 것이다. 생성형 AI 챗봇을 뒷받침하는 대형 언어 모델(LLM)은 그렇지 않다. 현재, 그리고 가까운 미래에도 생성형 AI는 다른 사람의 작업을 복사하여 붙여넣는 데만 능숙할 뿐이다.

즉, 그들이 뱉어내는 결과의 수준은 오직 원 출처가 되는 데이터 수준을 넘어서지 못한다. 최신 뉴스를 알고 싶으면 뉴욕 타임즈, 워싱턴 포스트, 월스트리트 저널을 찾는 필자는 그 언론사의 기자를 신뢰할 뿐만 아니라 그들의 편견이 무엇인지도 알고 있다.

예를 들어 신문의 금융 뉴스 내용은 믿을 수 있지만, 칼럼니스트의 의견은 매우 신중하게 받아들여야 한다.

더 타임즈의 경우 오픈AI가 챗GPT를 훈련시키기 위해 자사의 기사를 훔쳤다고 주장하고 있는데, 이 소송에서 이긴다면 생성형 AI는 곤경에 처하게 된다. 다른 언론사도 속속 소송을 제기할 것이기 때문이다. 그렇게 되면 모든 생성형 AI 엔진은 레딧, 사용자의 '비공개' 슬랙 메시지, 사용자가 오픈AI를 망치기 위해 답변을 방해하는 스택 오버플로 등에서 콘텐츠를 훔쳐서 학습해야 할 것이다.

좋은 소식은 절대 아니다. 종종 생성형 AI 엔진이 쓰레기 같은 결과를 출력하는 이유는 배운 것이 그것뿐이기 때문이다. 예를 들어, 오픈AI GPT-3 토큰의 80%는 커먼 크롤링에서 나온다. 이름에서 알 수 있듯이, 이 페타바이트 규모의 데이터는 웹의 모든 곳과 모든 곳에서 스크랩된다. 그 결과 모질라 재단의 연구에 따르면 신뢰할 수 있는 AI가 될 수 없다.

더 나쁜 것은 결국 이러한 생성형 AI 도구가 자체적으로 쓰레기를 소비하기 시작하는 시기가 올 수 있다는 것이다. 모델 붕괴까지 초래할 수 있다고 잘 알려진 문제다. 신경과학자 에릭 호엘이 최종 결과를 간결하게 ‘합성 쓰레기’라고 명명하기도 했다. AI가 생성한 데이터가 LLM에 독이 될 수 있다고 생각하는 AI 엔지니어도 많다.

동시에 생성형 AI 기업은 장기적으로 볼 때 사용자에게도 스스로에게도 너그럽지 않다. 예를 들어, 구글의 AI 기반 '오버뷰'는 검색 결과 상단에 간결한 AI 요약을 제공한다. 구글의 검색 운영 총괄 리즈 레이드는 이러한 움직임이 정보에 더 빠르게 접근할 수 있게 해주며, 사용자의 흥미를 유발하여 더 많은 웹사이트 클릭을 유도할 것이라고 주장한다.

레이드는 사용자가 초기 종합 요약을 본 후 '더 깊이 파고들기'를 원하기 때문에 AI 개요가 실제로 더 많은 검색과 웹사이트 클릭을 유도할 것이라고 말했다.

그러나 언론사는 잘 알고 있다. 구독을 해야 하거나 광고를 봐야 하는 기사를 굳이 보러 가려는 사용자가 얼마나 되겠는가?

뉴스 미디어 연합(2,200개 이상의 언론사를 대표하는 단체)의 CEO인 다니엘 커피는 이러한 변화가 이미 광고 수익 감소로 어려움을 겪고 있는 업계에 재앙이 될 수 있다고 경고했다. 커피는 “"구글 같은 지배적인 독점 기업이 퍼블리셔와 크리에이터의 이익을 희생하는 방식으로 규칙을 정하는 것은 불쾌할 뿐 아니라 불법 가능성도 있다”라고 말했다.

구글은 퍼블리셔의 친구였던 적이 없다. 구글이 언론사에 뉴스 사이트 액세스 비용을 지불하도록 한 스페인이나 캐나다 같은 국가의 담당자들에게 물어보라.

구글, 마이크로소프트, 그리고 다른 생성형 AI 기업이 검색 방문자(와 광고 수익)를 모두 독차지한다면, 언론사는 더 빠른 속도로 사라질 것이다. 그리고 구글과 다른 AI 서비스가 LLM에 필요로 하는 권위 있는 정보도 사라지게 된다.

오픈AI의 공동 창업자인 샘 알트먼은 최근 "GPT-4는 현재 사용 가능한 가장 멍청한 모델"이라며 "GPT-5는 훨씬 더 똑똑해질 것"이라고 말한 바 있다.

그 말은 사실일 것이다. GPT-4o는 이전 모델보다 확실히 우월하며, GPT-5도 이러한 추세를 이어갈 것이다. 하지만 GPT-6 이후는 어떨까? 인간이 만든 신뢰할 수 있는 이야기가 사라지면 AI는 점점 더 멍청해질 것이다.

요컨대 이른바 AI GIGO, 즉 쓰레기를 입력해 쓰레기를 출력하는 AI로 가득 찬 시대가 머지 않았다. 아무도 원하지 않는 미래다. 멈출 수 있는 시간은 얼마 남지 않았다.
editor@itworld.co.kr

Steven Vaughan-Nichols editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.