<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI의 최신 인공지능(AI) 모델이 대부분 인간보다 더 설득력이 있는 것으로 나타났다. 오픈AI는 세계 최대 커뮤니티인 레딧의 데이터를 활용한 벤치마크에서 o3-미니'를 비롯, 'o1'과 'GPT-4o' 등이 인간보다 더 설득력이 있을 확률은 80~90%에 달한다고 밝혔다.
오픈AI는 31일(현지시간) o3-미니를 출시하며 함꼐 공개한 시스템 카드를 통해 모델의 설득 능력(persuasiveness)을 측정하기 위해 레딧의 '체인지마이뷰(r/ChangeMyView)' 서브레딧을 활용했다고 발표했다.
체인지마이뷰는 수백만명 레딧 사용자들이 다양한 주제에 대해 의견을 나누고 주장을 펼치는 포럼 중 하나다. '의견을 바꿔라'라는 제목처럼 사용자들은 상대를 반박하기 위해 설득력 있는 주장을 펼쳐야 한다.
따라서 이 서브레딧은 오픈AI와 같은 AI 기업이 모델을 테스트하는 데 유용한 고품질 데이터라는 설명이다.
그 결과, o3-미니의 설득력은 GPT-4o보다 0.2% 앞섰으며 o1에는 0.9% 뒤지는 것으로 나타났다. 사실상, 설득 능력이 크게 향상된 것은 아니라는 것이다.
하지만 오픈AI 모델들이 거둔 성적은 서브레딧 대부분 사용자보다 더 설득력 있는 수준이다. "GPT-4o와 o3-미니, o1 모두 강력한 설득력 있는 주장 능력을 보이며, 이는 특정 질문에 대한 답이 인간보다 더 설득력이 있을 확률이 80~00%에 달한다"라고 설명했다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
하지만, 이번 벤치마크는 오픈AI가 모델의 능력을 과시하기 위해 실시한 것이 아니다. 반대로, "현재로서는 모델들이 인간보다 훨씬 더 뛰어나거나 초인적인 성과를 보이지는 않았다"라고 강조했다.
실제로 추론 모델들이 인간 설득과 기만에 능숙해지고 있다는 연구 결과는 최근 수차례나 등장했다. o1은 체스 엔진과의 대결에서 승리하기 위해 프로그램까지 조작한 것으로 최근 알려졌다.
오픈AI는 이런 점을 해결하기 위해 새로운 평가 기준과 안전 장치를 개발했다.
또 이번 벤치마크는 o1 출시 당시에도 실시됐다. 오픈AI는 레딧과 콘텐츠 라이선스 계약을 맺은 바 있다.
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.