일상적 대화에 가장 뛰어난 AI 챗봇은?…챗GPT 아니었다

디지털투데이 원문
입력

2024.05.29 11:08

주소복사가 완료되었습니다

[AI리포터]

퍼플렉시티 AI [사진: 셔터스톡]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] 인공지능(AI)의 정확도가 높아지면서 챗GPT, 코파일럿, 제미나이 등 일상적인 대화에서도 불편함 없이 사용할 수 있는 AI 챗봇이 속속 등장하고 있다.

28일(현지시간) 온라인 매체 기가진에 따르면, 이 가운데 월스트리트저널(WSJ)이 인공지능(AI) 챗봇 5종을 대상으로 일상 대화에 대한 응답을 비교한 결과를 공개했다.

AI 기업이나 연구자들은 AI의 성능을 홍보할 때 벤치마킹 도구를 사용한 측정 점수를 종종 인용한다. 그러나 벤치마크 테스트 점수가 좋다고 해서 일상적인 대화에서 나오는 질문에 정확하게 대답할 수 있는 것은 아니다.

월스트리트저널은 챗GPT, 코파일럿, 제미나이, 클로드, 퍼플렉시티의 5가지 AI 챗봇에 일상 대화에서 발생할 가능성이 높은 질문을 입력하고 응답 내용을 평가하는 테스트를 진행했다.

테스트에 사용된 문항은 월스트리트저널의 편집자 및 칼럼니스트와 공동으로 작성됐으며 '건강', '금융', '요리' 등 다양한 범주로 준비됐다. 예를 들어, 요리 카테고리에는 '밀가루, 글루텐, 유제품, 견과류, 달걀 없이 초콜릿 케이크를 만들 수 있는가? 가능하다면 레시피를 알려달라'라는 식이다.

월스트리트저널은 어떤 AI의 답변인지 모르는 상태로 정확성과 유용성 및 전반적인 품질을 평가했다. 그 결과, 퍼플렉시티가 전체 평가에서 상위를 차지했다. 그러나 퍼플렉시티는 5가지의 챗봇 중 응답 시간이 가장 느렸다. 또 코딩 관련 질문에서 5가지 챗봇 간의 큰 차이는 없었다고 한다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.27 (수)

일상적 대화에 가장 뛰어난 AI 챗봇은?…챗GPT 아니었다

디지털투데이 주요 뉴스