"유명 시인보다 AI가 쓴 시가 점수 높았다" 충격 연구 결과

중앙일보 원문
이해준
입력

2024.11.15 07:58

최종수정

2024.11.15 13:36

주소복사가 완료되었습니다

오픈AI. 로이터=연합뉴스

<이미지를 클릭하시면 크게 보실 수 있습니다>

사람들이 유명 시인의 시와 인공지능(AI)가 쓴 시를 확실히 구분하지 못하며, 도리어 AI가 지은 시를 더 선호한다는 연구 결과가 나왔다.

미국 피츠버그대 브라이언 포터 박사팀은 15일 과학 저널 사이언티픽 리포트(Scientific Reports)에 이같은 내용을 발표했다.

연구팀은 유명 시인 10명의 시와 이들의 시를 모방해 챗GPT3.5가 지어낸 시를 일반인에게 제시한 뒤 구분하고 평가하게 하는 실험을 통해 이같은 결과를 얻었다.

연구팀은 먼저 1634명을 대상으로 AI가 생성한 시와 유명 시인의 시를 구별하는 테스트를 했다. 두 번째 실험에서는 696명을 대상으로 AI의 시와 시인들의 시에 대해 아름다움, 리듬, 독창성 등 14가지 특성을 평가하게 했다.

실험에서는 14세기 시인 제프리 초서부터 윌리엄 셰익스피어, 월트 휘트먼, TS 엘리엇, 현대의 도러시 아라스키 등 유명 시인 10명의 시 50편과 챗GPT3.5가 이들의 시를 모방해 지은 시 50편이 사용됐다.

첫 번째 실험에서 유명 시인의 시 5편과 AI의 시 5편을 무작위로 제시한 다음 시인과 AI의 시를 구별하도록 했다. 그 결과 정확도는 46.6%로 나왔다. 무작위로 찍을 경우 나오는 기대값은 50%다. 여기에도 미치지 못할 정도로 구분을 못 했다는 결과다.

오히려 참가자들이 AI가 쓴 시를 사람이 쓴 것이라고 판단할 가능성이 더 높았다. 또 이들이 시인이 썼을 가능성이 가장 낮다고 평가한 시 5편은 실제 시인이 쓴 것으로 나타났다.

두 번째 실험에서는 참가자들을 세 그룹으로 나눈 다음 각 그룹에 시를 제시할 때 시에 대해 '사람이 쓴 시', 'AI가 쓴 시', '출처 정보 없음' 등 정보를 주고 그 시의 질과 아름다움, 감정, 리듬, 독창성 등 14가지 특성을 평가하게 했다.

그 결과 'AI가 쓴 시'라는 말을 들은 참가자들은 실제 시인이 쓴 시인지 AI가 쓴 시인지 관계없이 '사람이 쓴 시'라는 말을 들은 참가자들에 비해 13가지 특성에서 낮은 점수를 줬다.

시의 출처 정보가 없다는 말을 들은 참가자들은 AI가 생성한 시를 시인들이 쓴 시보다 더 높은 점수를 줬다.

연구팀은 AI의 시를 이처럼 긍정적으로 평가하는 경향은 사람이 쓴 시의 복잡성을 AI가 만들어낸 '일관성 없음'으로 착각하고, 생성형 AI가 얼마나 인간과 유사해 보일 수 있는지에 대해 과소평가하고 있기 때문일 수 있다고 설명했다.

이어 "시는 생성형 AI가 아직 인간과 구별할 수 없는 수준의 작품을 쓰지 못하는 텍스트 영역 중 하나로 여겨져왔다"면서 "하지만 이 연구 결과는 생성형 AI의 능력이 시에서도 이미 사람들의 기대를 넘어섰음을 보여준다'고 말했다.

챗GPT 3.5는 이전 버전이며, 현재는 한층 성능이 향상된 챗GPT 4.0을 서비스하고 있다.

이해준 기자 lee.hayjune@joongang.co.kr

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

12.27 (금)

"유명 시인보다 AI가 쓴 시가 점수 높았다" 충격 연구 결과

중앙일보 주요 뉴스