챗봇 아레나는 방문자가 익명의 무작위 언어 모델을 2개씩 비교해 어떤 모델이 가장 좋은 응답을 제공하는지 선택하는 웹사이트다.
오픈AI는 아레나에서 여러 버전의 GPT-4o를 테스트해 왔다. 처음에는 'gpt2-chatbot'으로, 그다음에는 'im-a-good-gpt2-chatbot'으로, 마지막은 'im-also-a-good-gpt2-chatbot'였다.
윌리엄 페더스(William Fedus) 오픈AI 직원은 "GPT-4o는 우리의 새로운 최첨단 프론티어 모델"이라며 "우리는 아레나에서 im-also-a-good-gpt2-chatbot 버전으로 이를 테스트해 왔다"고 전했다.
GPT-4o는 LMSYS 순위에서 이전 상위 모델인 클로드3 오푸스 및 GPT-4 터보를 상당한 차이로 능가했다. 이는 모든 모델을 큰 격차로 제치고 정상에 올랐다고 한다.
현재 아레나에서 GPT-4o의 점수는 1309엘로(Elo)다. 4월 기준 GPT-4 터보의 경우 1253엘로, 클로드3 오푸스는 1246엘로다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.