컨텐츠 바로가기

03.18 (화)

이번엔 딥리서치 쇼크···과학 연구 논문도 8분만에 뚝딱

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

유용균 원자력연 AI실장 시연···추론기능 갖춰

벤치마크 시험서 딥리서치 26.6%, 딥시크 9.4% 기록

과학·수학 질문서도 강세···단계별 질문하면 더 강해

자료 조사 등 AI 대체될듯···유 실장 "발전속도 무섭다"

[이데일리 강민구 기자] 최근 중국산 생성형 인공지능(AI) 모델인 딥시크가 등장해 전 세계를 놀랍게 했다. 그런데 연구자들의 소셜네트워크서비스(SNS)에서는 ‘딥시크 충격’ 보다 더 그들을 놀랍게 한 AI 모델이 있다. 바로 오픈AI의 새로운 기능인 ‘딥리서치(Deep Research)’다.

기존 AI 모델이 인간이 추론하는 모습을 어설프게 흉내를 내는데 그쳤다면 이 기능을 갖춘 모델은 한계를 훌쩍 뛰어넘는 강력한 추론 기능을 탑재했다. 전문가들 사이에서는 이미 딥리서치를 활용해 논문을 완성하고, 학술지 게재 승낙을 받았다는 이야기까지 나오면서 과학 논문 쓰기 방법에도 급격한 변화가 예상된다.

지난 14일 한국원자력연구원에서 만난 유용균 디지털원자로·AI연구센터 인공지능응용연구실장이 보여준 시연 장면에서도 딥리서치의 성능을 확인할 수 있었다. 유 실장이 정부부처를 대상으로 하는 기획 보고서를 짜기 위해 아이디어를 건네주자 딥리서치는 사람이 몇 시간 해야 하는 작업을 단 8분 만에 정교한 분석 보고서를 만들어냈다.

유용균 실장은 “교수들을 뒷받침해 논문을 조사하던 일도 기본적인 학위 논문 제작부터 정부 정책 기획까지 모두 AI가 하게 될 수 있다”며 “AI가 급속도로 발전하면서 사실상 과학 연구의 기본인 논리적인 글쓰기도 AI가 더 잘하는 시대가 올 수 있어 연구자로서 할 일에 대한 위기감도 느낀다”고 했다.

이데일리

유용균 한국원자력연구원 실장이 도표를 이용해 간단히 만든 자료(위쪽)를 입력하자 단 8분만에 근사한 연구 보고서(아래쪽)로 만들어줬다.(사진=한국원자력연구원)

<이미지를 클릭하시면 크게 보실 수 있습니다>




챗GPT 기반으로 심층 추론

딥리서치는 오픈AI가 추론을 사용해 방대한 양의 온라인 정보를 합치고, 여러 단계의 연구 작업에 도움이 되도록 월 200달러 이상을 내는 유료 사용자(프로 사용자 대상, 플러스·팀 넥스트 사용자 확대)에게 제한적으로 제공하는 기능이다. 지난 2일 발표된 뒤 연구자 커뮤니티에서 화제다.챗GPT 고유의 기능은 유지하면서 심층연구를 지원하기 위해 필요한 기능들을 탑재했다.

작동 원리는 간단하다. 우선 챗GPT의 메시지 작성기에서 ‘딥 리서치’라는 하단부를 눌러 질의를 입력해야 한다. 작업이 이뤄지면 수행된 단계와 사용된 소스의 요약이 있는 ‘바’가 나타나 생각하고 결론내리는 방법을 볼 수 있다. 조사가 끝나면 알림을 받게 되고 최종본은 채팅 내 보고서로 도착했다.

사용자가 우선 명령어(프롬프트)를 주면 챗GPT는 온라인 소스를 찾고, 분석하고, 이를 종합해 연구자 수준의 포괄적인 보고서를 만든다. 오픈AI o3 모델 버전을 기반으로 추론을 활용하는데 중간 과정에서 질문할 시간을 추가로 주고 중간 단계마다 질문을 더하자 더 근사한 결과값을 만들어냈다. PBS(연구과제중심제도)처럼 오래된 과학계 과제도 마찬가지다. PBS 관련 보고서를 만들어내 달라고 질문하자 한계부터 정책적 제언까지 방대한 텍스트와 이미지 등을 분석하고 의견을 담아 보고서를 작성해냈다.

이데일리

유용균 한국원자력연구원 디지털원자로·AI연구센터 인공지능응용연구실장.(사진=한국원자력연구원)

<이미지를 클릭하시면 크게 보실 수 있습니다>


이데일리

[이데일리 김일환 기자]

<이미지를 클릭하시면 크게 보실 수 있습니다>


유 실장은 “기존 AI 모델은 긴 보고서 작성하라고 하면 앞뒤가 안 맞는다든지 아니면 출처가 불분명하다든지 이런 일들이 많은데 딥리서치는 자료를 다 조사해 자기 판단을 하기 때문에 신뢰성이 높다”며 “수학, 코딩뿐만 아니라 글쓰기에서도 목적을 가지고 논리를 전개하는 기능이 뛰어나다”고 설명했다.

오픈AI에 따르면 딥리서치는 웹 전반을 검색하며 스스로 통찰력을 발휘하고, 자료를 추론하고 통합한다. 훈련 과정에서는 다양한 도메인에 걸쳐 탐색하고, 추론하는 ‘엔드투엔드 강화 학습’을 이용했다. 필요한 데이터를 찾기 위해 다단계 궤적을 계획하고 실행하고, 필요한 경우 실시간 정보에 역추적하고 반응하는 방법을 배우는 방식이다. 사용자가 업로드한 파일을 탐색하고, 파이썬 도구를 사용해 그래프를 그리며 반복하고, 생성된 그래프와 웹사이트 이미지를 응답에 포함하고, 소스에서 특정 문장이나 구절도 인용할 수 있다.

그 결과, 현재 업계에서 AI 시스템의 지능과 전문성을 평가하는 벤치마크 시험 중 가장 어려운 ‘인류의 마지막 시험(Humanity’s Last Exam)’에서 26.6%의 정확도로 최고 점수를 기록했다. 챗GPT 4o(3.3%)와 딥시크 R1(9.4%) 모델과 격차가 크다. 딥리서치는 언어학부터 로켓 과학, 고전, 생태학까지 100개 이상의 3000개 이상의 문제에 대해 답했고, 전문화된 정보를 효과적으로 찾아냈다.

이데일리

딥리서치는 목적을 가지고 논리를 전개해 보고서를 만드는 성능도 뛰어나다.(자료=한국원자력연구원)

<이미지를 클릭하시면 크게 보실 수 있습니다>


진화 분명하지만 100개 질문 한계도

인류에게 다행(?)인 점은 딥리서치가 아직 여러 이유로 한계가 있다는 것이다. 질문(쿼리)에 따라 조사 시간이 길어질수록 더 많은 추론 컴퓨팅이 필요하며, 현재 유료 사용자에게는 월 최대 100개의 쿼리만 제공된다. 또한, 웹에서 공개된 정보만을 추출해 가공할 수 있기 때문에 그 범위에도 한계가 있다. 평균적으로 조사에 5분에서 30분 정도의 시간이 소요된다는 점도 큰 걸림돌이다.

하지만 앞으로 성능을 고도화하여 쿼리를 확장하고, 국제학술지와 연계해 서비스를 구축한다면 과학 연구에서 AI의 영향력은 더욱 확대될 수 있다. 오픈AI는 향후 국제학술지와 협력해 더 전문적인 지식을 제공할 가능성을 열어뒀다. 오픈AI는 웹사이트를 통해 “모바일과 데스크탑 앱으로도 출시될 예정이며, 딥리서치는 공개된 웹사이트와 업로드된 파일에 접근할 수 있다. 또한, 향후 더 전문화된 데이터 소스에 연결하여 더 강력하고 개인화된 성능을 제공할 계획”이라고 밝혔다.

이처럼 딥리서치를 중심으로 과학 연구의 판도가 변화할 것으로 예상된다. 예를 들어, 대학원생들이 교수와 함께 연구하는 과정에서 자료 조사나 시장 동향 분석에 많은 시간을 할애했다면, 이러한 작업들을 AI가 대신할 수 있게 된다. 기본적인 현황 분석을 통해 과학 연구는 더 빠르게 시작될 수 있다.

유 실장은 “아직 사용 제약 등 한계가 존재하는 것도 사실”이라며 “하지만 과학 연구에서 처음부터 하나하나 시작하는 것이 아니라 맥락을 파악해 중간 단계부터 연구를 시작할 수 있다는 점에서, 향후 과학 연구와 논문 작성에서 AI의 영향력은 더욱 커질 수밖에 없다”고 말했다.


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.