퍼플렉시티 AI [사진: 셔터스톡] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 인공지능(AI)의 정확도가 높아지면서 챗GPT, 코파일럿, 제미나이 등 일상적인 대화에서도 불편함 없이 사용할 수 있는 AI 챗봇이 속속 등장하고 있다.
28일(현지시간) 온라인 매체 기가진에 따르면, 이 가운데 월스트리트저널(WSJ)이 인공지능(AI) 챗봇 5종을 대상으로 일상 대화에 대한 응답을 비교한 결과를 공개했다.
AI 기업이나 연구자들은 AI의 성능을 홍보할 때 벤치마킹 도구를 사용한 측정 점수를 종종 인용한다. 그러나 벤치마크 테스트 점수가 좋다고 해서 일상적인 대화에서 나오는 질문에 정확하게 대답할 수 있는 것은 아니다.
월스트리트저널은 챗GPT, 코파일럿, 제미나이, 클로드, 퍼플렉시티의 5가지 AI 챗봇에 일상 대화에서 발생할 가능성이 높은 질문을 입력하고 응답 내용을 평가하는 테스트를 진행했다.
테스트에 사용된 문항은 월스트리트저널의 편집자 및 칼럼니스트와 공동으로 작성됐으며 '건강', '금융', '요리' 등 다양한 범주로 준비됐다. 예를 들어, 요리 카테고리에는 '밀가루, 글루텐, 유제품, 견과류, 달걀 없이 초콜릿 케이크를 만들 수 있는가? 가능하다면 레시피를 알려달라'라는 식이다.
월스트리트저널은 어떤 AI의 답변인지 모르는 상태로 정확성과 유용성 및 전반적인 품질을 평가했다. 그 결과, 퍼플렉시티가 전체 평가에서 상위를 차지했다. 그러나 퍼플렉시티는 5가지의 챗봇 중 응답 시간이 가장 느렸다. 또 코딩 관련 질문에서 5가지 챗봇 간의 큰 차이는 없었다고 한다.
한편, AI의 성능을 종합적으로 분석한 사례는 이 외에도 존재한다. 미국 스탠포드 대학은 2017년부터 매년 AI의 성능과 영향력을 분석한 보고서를 발표하고 있다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.