네이버 큐의 답변 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
글로벌 빅테크들의 '생성 AI 검색' 경쟁이 본격화한 가운데 네이버의 검색 결과가 구글보다 정확도가 높은 것으로 나타났다. 네이버는 '단계별 추론(multi-step reasoning)' 기술과 신뢰할 수 있는 데이터에 기반해 정확도를 높일 수 있었다는 분석이다.
28일 외신 및 업계에 따르면 구글이 최근 선보인 생성 AI 검색 서비스 'AI 오버뷰(AI Overviews)'의 정확도가 떨어진다는 지적이 제기됐다.
AI 오버뷰는 빠르고 정확한 답변 및 요약까지 AI 기반으로 처리한다는 것이 서비스의 핵심이다. 하지만 오바마가 무슬림 대통령이라고 하거나 △피자에 치즈를 붙이려면 접착제를 사용하라 △건강하려면 하루에 돌을 최소 하나씩은 먹어야 한다 등의 오류 문제가 불거졌다.
구글 관계자는 “현재까지 확인된 많은 사례들은 일반적이지 않은 쿼리가 입력된 경우였다”며 “구글은 자사 콘텐츠 정책에 따라 적절한 조치를 신속하게 취하고 있으며, 그 중 해당 예시들을 활용해 기존 자사 시스템과 이미 출시된 일부 시스템을 개선 중”이라고 밝혔다.
이에 반해 네이버가 지난해 9월부터 베타 버전을 선보인 생성 AI 검색서비스 '큐(CUE:)'의 답변은 상대적으로 정확했다.
네이버 큐는 여러 의도가 복잡한 구조로 얽힌 질문도 명확하게 이해한 후 스스로 체계적인 검색을 진행한다. 또 적절한 문서를 바탕으로 답변을 생성 및 요약하고, 쇼핑과 로컬 등 네이버의 다양한 서비스와 연계도 가능하다.
이는 큐가 단계별 추론 과정을 통해 질문 의도를 단계적으로 파악하고 검색 계획을 수립한 후 검색 특화 학습 모델이 여러 단계를 거쳐 검색을 수행하기 때문이다.
큐는 △질의 이해(Reasoning) △답변이 포함된 출처 수집(Evidence Selector) △답변과 출처의 사실성 일치 확인(Factually Consistent Generation) 등 3단계 과정을 통해 환각을 최소화하도록 개발됐다. 내부 자체 테스트 결과 해당 기술 탑재 후 환각 현상이 72% 감소한 것으로 나타났다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
전문가들은 생성 AI의 검색 방식에 따라 정확도가 좌우될 수 있다고 분석했다. AI 오버뷰는 사용자의 질문(쿼리)으로 구글 검색을 한 후 이 결과를 LLM에게 넘겨서 요약한다. 일반적인 질문인 '미국의 수도는 어디인가' 등에 대한 오류가 발생할 확률은 낮다. 검색 결과가 정확하고 이를 요약하는 과정에서의 오류 발생 가능성도 미미해서다.
다만 잘 정리된 질문이 아니거나 논리적이지 않은 질문 등에 대해서는 이같은 검색 방식에 오류를 발생시킬 수 있다는 설명이다. 검색 결과를 LLM에게 넘겨주고 LLM은 이를 충실히 요약하기 때문이다.
전문가들은 AI 검색 정확도를 높이기 위한 방안으로 질문의 유효성 평가와 검색 결과의 유효성 평가 등을 꼽았다.
이재원 넥서스 AI 대표는 “AI가 부족한 혹은 부정확한 검색 결과를 기반으로 답을 생성하려 해 검색의 정확도가 떨어지는 현상이 발생한다”며 “질문이 유효한지에 대한 평가를 선행하고, 검색 결과도 유효한지에 대해 LLM이 하나씩 평가하는 방식 등을 도입한다면 정확도가 높아질 것으로 보이지만 엄청난 연산 비용은 해결 과제”라고 말했다.
[Copyright © 전자신문. 무단전재-재배포금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.