컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

"미세조정보다 RAG 개선이 더 효율적"...강화 학습 프레임워크 등장

AI타임스 박찬
원문보기

"미세조정보다 RAG 개선이 더 효율적"...강화 학습 프레임워크 등장

서울맑음 / 26.9 °
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


대형언어모델(LLM)의 정확도를 높이기 위해 많은 데이터를 사용해 미세조정하는 대신, RAG 정확도를 높이는 것이 더 유리하다는 주장이 등장했다. 이를 위해 기존보다 효율적으로 검색 증강 생성(RAG) 시스템을 구축할 수 있는 새로운 오픈 소스 프레임워크를 소개했다.

일리노이대학교 어바나-샴페인(UIUC) 연구진은 28일(현지시간) RAG 시스템을 효율적으로 구축할 수 있도록 돕는 강화 학습(RL) 오픈 소스 프레임워크 's3'에 관한 논문을 아카이브에 게재했다. 제목은 's3: RL을 통해 검색 에이전트를 훈련하는 데는 많은 데이터가 필요하지 않다'다.

RAG의 성능은 검색(retrieval) 단계의 품질에 크게 좌우되는데, 연구진은 RAG 기술의 발전을 세가지 주요 단계로 구분했다.

우선, '클래식 RAG'는 고정 쿼리를 통해 정적 검색을 수행하며, 생성 성능과 검색 품질이 분리돼 있어 복잡한 추론이 필요한 질문에 약하다고 밝혔다.

또 '프리-RL-제로(Pre-RL-Zero)' 단계는 LLM이 검색 과정에 더 적극 관여하는 방식으로, 쿼리 생성과 검색, 추론이 다중 턴으로 얽혀 있다. 그러나, 학습 가능한 구성 요소가 없어 검색 최적화가 어렵다고 지적했다.

'RL-제로'는 RL을 통해 검색 에이전트를 훈련하는 최신 방식이다. 검색과 추론을 반복하며 정답 정확도 등 결과 기반 피드백을 활용한다. 하지만, LLM을 직접 미세조정해야 하며 비용이 많이 들고 오류 발생 가능성도 크다.



이런 문제를 해결하기 위해 연구진은 s3라는 프레임워크를 제안했다. 검색(Search) 선택(Select) 중지(Stop)의 약자다.

s3는 검색과 답변 생성 과정을 나눠 처리하며, 특정 AI 모델에 의존하지 않고 다양한 상황에서도 좋은 검색 결과를 얻을 수 있도록 만들어졌다.

우선, 검색 역할을 전담하는 모델이 외부 지식에 반복적으로 접근해 쿼리를 생성하고 추천 문서를 선택한 뒤 검색을 계속할지 여부를 판단한다. 이 과정이 끝나면, 기본 생성 모델이 선택 문서를 기반으로 최종 답변을 생성한다.


핵심은 'GBR(Gain Beyond RAG)'이라는 RL의 보상 신호다. GBR은 기존 정적인 검색이 선택한 문서를 s3가 선택한 문서로 생성된 답변의 정확도와 비교한다. 이를 통해 검색 에이전트가 실제 성능 향상에 기여하는 문서를 찾도록 유도한다.

연구진은 s3를 6개의 QA 벤치마크에서 테스트했다. 비교 대상은 기존의 검색 시스템 미세조정한 시스템(서치-R1) 고정 생성기를 사용하는 능동 검색 시스템 등이다. s3 구축을 위해 '큐원2.5-7B-인스트럭트'를 검색 모델로, '큐원2.5-14B-인스트럭트'와 '클로드 3 하이쿠'를 생성 모델로 활용했다.


대부분 벤치마크에서 기존 시스템보다 우수한 성능을 보였다.


특히, 데이터 효율성에서 두각을 나타냈다. 2400개의 학습 예제로도 서치-R1(17만 예제)와 딥리트리벌(7만 예제)의 성능을 능가했다.

연구진은 "RAG 성능 향상의 핵심은 생성 정렬보다 검색 전략의 고도화에 있다"라고 강조했다.

또 s3는 도메인 일반화 능력도 입증했다. 일반 QA 데이터로만 훈련했지만, 의료 QA와 같은 학습하지 않은 분야에서 제로샷 성능을 보였다. 이는 검색 중심의 RL이 미세조정보다 안정적으로 도메인 특화를 지원한다는 것을 의미한다고 강조했다.

이런 특성 덕분에 s3는 기업용 애플리케이션에 적합하다고 덧붙였다. 법무, 인사, 고객지원 등 서로 다른 부서에서 동일한 검색 에이전트를 공유하거나 제품 문서 업데이트와 같이 변화하는 콘텐츠에 적응할 수 있다는 것이다.

"도메인 특화 데이터를 대규모로 수집하지 않고도 고성능 RAG 시스템을 구현할 수 있다는 점은 기업 운영의 유연성과 비용 효율성을 크게 높일 수 있다"라고 전했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>