컨텐츠 바로가기

03.07 (금)

"추론 능력은 'o1'이 앞서지만, 실제 활용은 'R1'이 더 유용해"

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈AI의 'o1'이 '딥시크-R1'보다 추론 능력이 조금 더 뛰어나지만, R1은 실수할 때 그 이유를 알 수 있어 더 유용하다는 분석이 나왔다. 벤치마크에서 높은 점수를 받았다고 해도 둘 다 실제 사용에는 문제가 있으며, 모델의 실수를 파악하고 수정하기 위해서는 추론 과정을 사용자가 파악하는 것이 매우 중요하다는 설명이다.

벤처비트는 31일(현지시간) '퍼플렉시티 프로 서치(Perplexity Pro Search)'를 사용해 o1과 R1을 비교 테스트한 결과를 소개했다.

이 실험의 목표는 벤치마크에 따른 수치 확인을 넘어, 실제 모델 활용에서 어느 쪽이 더 유용한지를 확인하기 위한 것이다.

첫번째 테스트는 모델이 투자 수익률(ROI)을 계산할 수 있는지 확인하는 것이다.

사용자가 2024년 1~12월 첫번째 날에 매그니피센트 7(알파벳, 아마존, 애플, 메타, 마이크로소프트, 엔비디아, 테슬라)에 140달러를 투자했다고 가정했다. 모델에게 현재 날짜 기준으로 포트폴리오 가치를 계산해 달라고 요청했다.

이 작업을 위해 모델은 매월 첫날의 주식 가격 정보를 가져와 각 주식에 20달러를 투자하고, 이를 합산해 현재 날짜의 주식 가치를 기준으로 포트폴리오 가치를 계산해야 한다.

하지만, 두 모델 모두 정답을 내는 데 실패했다. o1은 주식 가격 목록과 계산 공식을 도출했지만, 정확한 계산에는 실패하고 "ROI가 없다"라고 응답했다. 반면, R1은 2024년 1월에만 투자하고 2025년 1월에 대한 수익률만 계산하는 실수를 저질렀다.

o1의 추론 능력이 R1보다는 조금 더 낫다는 것을 보여주는 사례다.

하지만, o1은 결과에 도달한 방법을 설명하지 않았다. 대신, R1은 퍼플렉시티의 검색 엔진이 주식 가격 데이터를 제대로 가져오지 못했다는 점을 보여줬다. 이는 검색 능력에 기반한 모델들이 성능 부족보다 잘못된 검색 결과로 실패한다는 점을 보여준다.

따라서 두번째 테스트는 모델이 웹에서 정보를 가져오는 대신, 자료 파일을 사용자가 직접 입력하는 방식으로 첫번째와 동일한 실험을 진행했다. 파일에는 각 주식과 2024년 1~12월 매월 첫번째 날의 가격과 최종 주가가 담긴 HTML 테이블이 포함됐다. 다만 데이터를 정리하지 않아, 모델이 데이터를 올바로 정리하고 선택할 수 있는지를 테스트했다.

여기에서도 o1은 R1보다 조금 더 나은 능력을 보였으나, 두 모델 모두 정확한 답을 제공하지 못했다.

o1은 파일에서 데이터를 추출하는 데는 성공했지만, ROI 계산은 엑셀(Excel) 같은 도구에서 수동으로 하라고 응답했다.

R1도 실패했지만, 그 과정에서 유용한 정보를 제공했다. 예를 들어, 모델은 주식의 HTML 데이터를 올바르게 분석하고 필요한 정보를 추출했으며, 월별 투자 계산과 합산 후 최신 주식 가격에 따라 최종 가치를 계산할 수 있었다. 하지만 최종값은 계산 과정에서만 남고, 실제 답안에는 포함되지 않았다는 것을 확인할 수 있었다. 또 2024년 6월10일에 있었던 엔비디아의 10대 1 주식 분할로 인해 계산이 틀렸다는 점도 드러났다.

따라서 R1은 추론 과정에서 더 많은 정보를 제공, 모델의 한계를 이해하고 어떻게 데이터를 수정해야 결과를 얻을 수 있을지 알게 해줬다는 평이다.

세번째 테스트는 모델에게 4명의 NBA 센터의 통계를 제공, 2022/2023 시즌보다 2023/2024 시즌에서 필드골 성공률(FG%)이 가장 많이 개선된 선수를 찾는 문제다. 이는 여러 데이터 포인트를 비교하는 것이 핵심인데, 중요한 것은 2023년 NBA에 입성한 선수가 포함됐다는 점이다. 따라서 이 선수는 제외해야 한다.

이 실험은 비교적 쉬운 것으로 평가된다. NBA 선수들의 통계는 뉴스나 커뮤니티에서 많이 다뤄지고, 위키백과나 NBA 프로필에도 포함되기 때문이다. 두 모델 모두 정답인 야니스 아데토쿤보를 찾았지만, 사용한 자료에 따라 약간의 차이가 있었다. 특히 두 모델은 신인이 포함됐다는 사실을 무시하고, 그가 유럽 리그에서 활동하던 시기의 통계를 가져왔다.

하지만, R1은 답변에 비교표와 자료 링크를 제공, 프롬프트를 수정할 수 있는 힌트를 제공했다. NBA 시즌의 FG%가 대상이라는 점을 명확하게 밝히는 식으로 프롬프트를 수정하자, R1은 루키를 결과에서 제외했다.

이처럼 o1과 R1은 뛰어난 추론 성능을 보인다는 벤치마크와 달리, 실제 사용에서는 문제가 있다는 것을 보여줬다. 특히, 정확한 답을 얻으려면 상세하고 구체적인 프롬프트가 필수라는 분석이다.

또 이 과정에서 추론 과정을 보여주는 R1이 빛을 발했다는 설명이다. 기본 추론 능력은 o1이 조금 앞서는 것으로 나타났지만, 실제 모델을 사용하는 입장에서는 R1이 더 유용하다는 평이다.

전문가들도 이런 점이 중요하다고 지적한다. 국내 스타트업 투디지트도 "딥시크 모델은 추론 과정을 노출, 사용자가 어떤 논리로 모델이 추론했는지 확인할 수 있어 신뢰성을 높일 수 있다"라고 전했다.

샘 알트먼 오픈AI CEO도 이날 레딧에서 열린 사용자 채팅 이벤트를 통해 "우리는 모델의 사고 과정을 더 많이 보여줄 방법을 모색하고 있다"라며 딥시크 방식을 도입할 뜻을 밝혔다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.