[박찬 기자]
메타와 하버드대학교 연구진이 중형 언어모델의 한계를 에이전트 설계와 도구 스택 혁신으로 극복하려는 시도를 공개했다.
메타와 하버드대 연구진은 9일(현지시간) 대규모 산업용 소프트웨어 저장소와 장시간 작업 세션을 처리할 수 있는 오픈소스 AI 소프트웨어 엔지니어링 에이전트인 '컨퓨시어스 코드 에이전트(Confucius Code Agent, CCA)'를 온라인 아카이브를 통해 공개했다.
이 시스템은 자체 개발한 컨퓨시어스 SDK를 바탕으로 개발됐다. 실제 깃허브 프로젝트와 복잡한 테스트 환경에서 반복해 실험해도 같은 수준의 결과를 낼 수 있는지를 확인하는 것이 목표다.
메타와 하버드대학교 연구진이 중형 언어모델의 한계를 에이전트 설계와 도구 스택 혁신으로 극복하려는 시도를 공개했다.
메타와 하버드대 연구진은 9일(현지시간) 대규모 산업용 소프트웨어 저장소와 장시간 작업 세션을 처리할 수 있는 오픈소스 AI 소프트웨어 엔지니어링 에이전트인 '컨퓨시어스 코드 에이전트(Confucius Code Agent, CCA)'를 온라인 아카이브를 통해 공개했다.
이 시스템은 자체 개발한 컨퓨시어스 SDK를 바탕으로 개발됐다. 실제 깃허브 프로젝트와 복잡한 테스트 환경에서 반복해 실험해도 같은 수준의 결과를 낼 수 있는지를 확인하는 것이 목표다.
컨퓨시어스 코드 에이전트의 가장 큰 특징은 언어모델 자체가 아니라, 이를 어떻게 활용하느냐를 정리한 에이전트 설계 구조(스캐폴드)다.
컨퓨시어스 SDK는 에이전트를 단순히 모델을 감싸는 래퍼(wrapper)로 보지 않고, 설계 자체를 핵심으로 삼는다. 이를 위해 모델이 어떤 정보와 맥락을 보게 할지 정하는 에이전트 경험(AX) 사람이 이해하기 쉽게 실행 과정과 코드 변경을 보여주는 사용자 경험(UX) 관찰·설정·디버깅 등 개발 과정 전반을 돕는 개발자 경험(DX)의 세가지 요소로 구성됐다.
SDK에는 세가지 핵심 메커니즘이 포함된다.
첫째는 통합 오케스트레이터로, 작업 과정을 단계별로 기억하고 정리해 주는 역할을 한다. 여러 파일을 다루고 많은 상호작용이 필요한 실제 개발 작업에서도, 이전 과정을 요약해 저장함으로써 대화 길이 한계를 넘지 않도록 돕는다.
둘째는 지속적 노트테이킹 시스템이다. 별도의 에이전트가 실행 기록을 읽기 쉬운 마크다운 노트로 정리해 두고, 이를 다음 작업에서도 기억처럼 다시 활용한다.
셋째는 모듈식 도구 인터페이스로, 파일 수정, 명령 실행, 테스트, 코드 검색 같은 다양한 개발 도구를 필요에 따라 쉽게 연결해 사용할 수 있게 해준다.
여기에 더해 연구진은 에이전트 구성 자체를 자동으로 개선하는 메타 에이전트를 도입했다. 메타 에이전트는 사람이 자연어로 요구 사항을 설명하면, 이에 맞는 에이전트 설정과 프롬프트, 도구 조합을 자동으로 만들어낸다.
이후 실행하거 결과를 평가한 뒤, 부족한 부분을 고쳐 나가는 '빌드-테스트-개선' 과정을 반복한다. 이번에 공개된 컨퓨시어스 코드 에이전트도 사람이 일일이 손으로 조정한 것이 아니라, 이 메타 에이전트의 도움으로 자동 설계된 결과다.
성능 평가에서는 실전형 벤치마크인 'SWE-벤치 프로'와 'SWE-벤치 베리파이드'가 사용됐다.
SWE-벤치 프로에서 컨퓨시어스 코드 에이전트는 클로드 오퍼스 4.5 모델과 결합해 54.3%를 기록하며 기존 연구용 기준선을 넘어 상용 시스템과도 견줄 만한 결과를 냈다. 특히 중간급 모델인 '클로드 소네트 4.5'에 컨퓨시어스 스캐폴드를 적용하면 52.7%를 기록해, 더 강력한 모델에 단순한 스캐폴드를 적용한 경우(52.0%)를 앞질렀다. 이는 모델 성능 못지않게 에이전트 설계가 중요하다는 점을 보여준다.
어떤 도구를 선택하고 어떤 순서로 사용하느냐를 정교하게 설계할수록 문제 해결 성공률이 눈에 띄게 높아졌다. 이는 모델 성능뿐 아니라, 에이전트가 도구를 활용하는 방식 자체가 매우 중요하다는 점을 보여준다.
또 노트테이킹 시스템을 활용해 두번째로 실행했을 때는, 작업에 필요한 대화 단계 수와 토큰 사용량이 줄어들면서 해결률도 소폭 상승했다. 이를 통해 노트가 단순한 기록이 아니라, 실제로 다음 작업에 도움이 되는 장기 기억 역할을 한다는 점이 확인됐다.
연구진은 수정해야 할 파일 수에 따라 성능을 분석한 결과, 컨퓨시어스 코드 에이전트가 여러 파일을 동시에 고쳐야 하는 대규모 코드 베이스에서도 비교적 안정적인 성능을 유지했다고 설명했다.
이번 공개는 중형 모델이라 하더라도, 잘 설계된 에이전트 구조와 메모리·도구 활용 방식을 결합하면 실제 현업 수준의 소프트웨어 개발 작업에서도 높은 성과를 낼 수 있음을 보여주는 사례로 평가된다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
