MS, 대규모 시스템 디버깅용 '추론 에이전트' 출시 : zum 뉴스

[박찬 기자]

(사진=셔터스톡)

마이크로소프트(MS)가 추론이 가능한 인공지능(AI) 에이전트 '딥 리서치(Deep Research)' 에서 아이디어를 얻어, 코드 분야에서도 추론용 에이전트인 '코드 리서처(Code Researcher)'를 만들었다. 이 에이전트는 단순한 코딩 생성을 넘어 대규모 시스템에서 발생하는 프로그램 충돌(crash) 문제를 해결하기 위한 용도다.

MS 리서치 연구진은 14일(현지시간) 시스템 수준 코드 디버깅을 위해 설계된 딥 리서치 에이전트 코드 리서처에 관한 논문을 발표했다.

대규모 시스템 코드는 수천개의 파일들이 상호 의존적으로 엮여 있으며, 수십년에 걸쳐 다양한 개발자들의 손을 거쳐 최적화된 만큼 사소한 변경에도 예기치 못한 오류가 발생할 수 있다.

특히, 운영체제나 네트워크 스택과 같은 저수준 시스템 코드에서는 충돌 보고서(crash report)나 스택 트레이스(stack trace)와 같은 자연어 힌트가 거의 없는 버그 정보가 일반적이라, 자동화된 디버깅은 큰 도전 과제로 남아 있었다.

코드 리서처는 이런 문제를 해결하기 위해 설계된 최초의 심층 디버깅 에이전트로, 사전 지식이나 수동 지원 없이 시스템 코드를 분석하고 패치를 생성하는 완전 자율형 시스템이다. 리눅스 커널 충돌 벤치마크(kBenchSyz)와 멀티미디어 오픈소스 프로젝트 FFmpeg에 적용해 일반화 가능성도 검증됐다.

분석(Analysis) 생성(Synthesis) 검증(Validation)이라는 3단계 전략을 수행한다.

우선 분석 단계에서는 충돌 보고서를 기반으로 반복적 탐색을 진행하며, 심볼 정의 검색과 정규 표현식을 통한 패턴 탐색, 커밋 기록 분석 등 다양한 도구를 사용해 충돌의 원인을 파악한다.

이후 충분한 컨텍스트 정보가 축적되면 생성 단계로 전환, 관련 없는 데이터를 걸러낸 뒤 여러 파일에 걸쳐 존재하는 결함 가능성이 있는 코드 조각을 식별하고 패치를 생성한다.

마지막 검증 단계에서는 자동 테스트 도구를 통해 생성된 패치의 효과를 확인하며, 오직 검증된 패치만을 최종 결과로 제시한다.

기존 코드 에이전트와 비교해도 코드 리서처는 뛰어난 성능을 입증했다.

시즈칼러(Syzkaller) 퍼저로 생성된 리눅스 커널 충돌 사례 279건을 대상으로 한 테스트에서, 코드 리서처는 GPT-4o 모델과 함께 탐색 횟수를 5회로 제한한 조건에서도 58%의 충돌을 해결하는 성과를 거뒀다. 이는 기존 SWE-에이전트의 37.5% 해결률을 크게 웃도는 수치다.

특히 코드 리서처는 평균 탐색 경로당 10개의 파일을 분석한 반면, SWE-에이전트는 1.33개에 그쳤다. 모든 결함 파일을 수정한 90건의 사례에서도 61.1%를 해결, SWE-에이전트 37.8%보다 높은 성능을 입증했다.

흥미로운 것은 생성 단계에만 추론 중심 모델인 'o1'을 투입했을 때도 동일한 58% 해결률을 유지했다는 사실이다. 이는 컨텍스트 이해와 정교한 추론 능력이 디버깅 성능을 결정짓는 핵심 요인이라는 것을 입증했다.

코드 리서처는 FFmpeg 프로젝트에서도 10건 중 7건의 충돌을 완화하는 패치를 성공적으로 생성하며, 커널 코드 외 영역에서도 높은 확장성과 실용성을 보였다.

MS는 "이번 실험을 통해 향후 코드 에이전트가 단순한 버그 수정 도구를 넘어, 자율 리서치 에이전트(Research Agent)로 진화할 가능성을 제시했다"라고 자평했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.