<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 최근 연구에 따르면, 인공지능(AI) 모델이 제공하는 정보의 정확성은 그 모델이 어떤 정보 소스에 노출되었는지에 따라 달라진다. 미국 코넬대를 비롯해 워싱턴대, 워털루대, 비영리 연구기관인 AI2에서 진행한 연구에서 다양한 주제에 대한 권위 있는 출처에 대해 오픈AI의 GPT-4o와 같은 사실 확인 모델을 사용해 환각을 벤치마킹했다. 그 결과 모든 주제에서 탁월한 성능을 보인 모델은 없었으며, 환각이 가장 적은 모델은 부분적으로 틀릴 수 있는 질문에 대한 답변을 거부했다.
지난 14일(현지시간) 테크크런치에 따르면 연구를 위해 연구원들은 지난해 출시된 인기 AI 모델 12개 이상을 평가했다. 이 결과는 오픈AI, 앤트로픽과 같은 대형 AI 업체들의 반대 주장에도 불구하고 최근에는 각 모델이 환각을 덜 일으키고 있음을 시사한다.
연구진은 벤치마크를 더 어렵게 만들고 사람들이 AI에 묻는 질문의 유형을 더 정확하게 반영하기 위해 웹에서 위키피디아 참조가 없는 주제를 찾아냈다. 테스트에 포함된 질문의 절반 이상은 위키백과를 사용하여 답을 구할 수 없는 질문이었다.
연구 결과, 모든 모델이 위키피디아 콘텐츠에서 많은 정보를 얻고 있었다. 웹에서 정보를 검색할 수 있는 모델도 벤치마크에서 '위키가 아닌' 질문에 어려움을 겪었다. 모델 크기는 크게 중요하지 않았으며, 작은 모델은 표면적으로 더 성능이 뛰어난 큰 모델과 거의 비슷하게 자주 오답을 냈다.
연구진은 모델이 더 자주 대답을 거부하도록 프로그래밍하는 것이 임시 해결책일 수 있다고 제안했다. 그러나 이는 사용자에게 만족스럽지 않은 경험을 제공할 수 있으므로, 업체들이 환각을 줄이는 연구에 더 많은 시간과 노력을 집중해야 한다고 주장했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.