컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

MS, 사람과 협업하는 차세대 웹 자동화 AI 에이전트 '마젠틱-UI' 공개

AI타임스 박찬
원문보기

MS, 사람과 협업하는 차세대 웹 자동화 AI 에이전트 '마젠틱-UI' 공개

서울맑음 / 27.5 °
[박찬 기자]
(사진=MS)

(사진=MS)


마이크로소프트(MS)는 22일(현지시간) 사람과 협업해 웹 작업을 수행하는 오픈 소스 인공지능(AI) 에이전트 '마젠틱-UI(Magentic-UI)'를 공개했다.

기존 AI 에이전트의 큰 문제 중 하나는 작업 과정이 불투명하다는 점이다. 에이전트가 어떤 계획을 세우고 어떤 단계를 거쳐 실행하는지 사용자에게 공유되지 않기 때문에, 사용자가 개입하거나 수정할 기회가 거의 없다.

특히, 결제 정보 입력이나 코드 실행 같은 작업에서 불투명성은 치명적인 오류로 이어질 수 있다. 또 완전한 자율성에 초점을 맞춰 사용자 통제를 배제하는 경향이 있을 경우 결과가 기대와 어긋나는 일이 잦았다.

이런 문제를 해결하기 위해 마젠틱-UI는 실시간 공동 계획, 실행 공유, 그리고 단계별 사용자 감독을 지원한다. 마젠틱-UI는 협업 기반 웹 작업 수행을 위해 설계된 인터페이스로, 공동 기획(co-planning) 공동 수행(co-tasking) 행동 보호(action guards) 계획 학습(plan learning) 등을 제공한다.

공동 기획 기능은 작업이 실행되기 전에 AI가 제안한 일련의 단계를 사용자에게 미리 보여주고, 사용자가 이를 직접 수정하거나 삭제할 수 있도록 해준다. 이를 통해 사용자는 AI의 계획을 전적으로 통제하며, 자신이 원하는 방식대로 조정할 수 있다.

공동 수행 기능은 작업이 진행되는 동안 실시간으로 모든 과정을 사용자에게 보여준다. 사용자는 필요한 경우 특정 단계를 일시적으로 중단하거나 수정할 수 있으며, 때로는 직접 작업을 대신 수행할 수도 있다. 이 기능은 작업 도중에도 유연하게 개입할 수 있는 환경을 제공한다.


행동 보호 기능은 브라우저 탭을 닫거나 양식을 제출하는 등 실수나 오작동으로 인해 문제가 발생할 수 있는 위험한 작업에 대해 사용자 확인 절차를 거치도록 설계되어 있다. 이를 통해 예기치 않은 결과를 방지하고 사용자 안전을 보장한다.

마지막으로, 계획 학습 기능은 사용자의 작업 이력과 피드백을 학습하여, 향후 유사한 작업을 수행할 때 정교하고 효율적인 계획을 수립할 수 있도록 돕는다. 이로써 마젠틱-UI는 시간이 지날수록 점점 더 사용자에게 맞춤화된 작업 수행 능력을 갖추게 된다.


이런 기능들은 각기 다른 역할을 수행하는 모듈화된 에이전트 팀에 의해 구동된다.


'오케스트레이터(Orchestrator)'는 전체 작업의 계획 수립과 의사결정을 총괄하는 중심 역할을 맡으며, 다양한 하위 에이전트를 조율한다. '웹서퍼(WebSurfer)'는 웹 브라우저 상에서의 조작을 담당하여, 페이지 탐색, 클릭, 양식 입력 등의 작업을 수행한다.

'코더(Coder)'는 샌드박스 환경에서 코드 실행을 맡아 자동화 작업에 필요한 스크립트나 계산을 안전하게 처리한다. '파일서퍼(FileSurfer)'는 문서나 데이터를 분석하고 해석하는 역할을 담당하여, 다양한 형식의 파일을 읽고 필요한 정보를 추출한다. 이들 에이전트는 유기적으로 협력하면서 사용자의 명령을 체계적으로 수행해 나간다.

사용자가 요청을 제출하면, 오케스트레이터 에이전트가 단계별 계획을 생성한다. 사용자는 이를 그래픽 사용자 인터페이스(GUI)를 통해 편집하거나 삭제하고, 필요 시 새로운 계획을 재생성할 수 있다.


계획이 확정되면 각 작업을 담당하는 특화 에이전트에게 분배된다. 에이전트들은 수행 결과를 보고하고, 오케스트레이터는 다음 단계를 진행할지 반복할지 사용자 피드백을 받을지를 판단한다. 이 모든 과정은 사용자에게 실시간으로 표시되며, 사용자는 언제든지 실행을 중단할 수 있다.

이런 구조는 단순한 자동화를 넘어, 실패에 대응할 수 있는 적응형 작업 흐름(adaptive task flow)을 가능하게 한다. 예를 들어 특정 단계가 링크 오류로 실패하면, 오케스트레이터는 사용자 동의를 받아 계획을 즉시 수정하고 작업을 이어갈 수 있다.


마젠틱-UI는 복잡한 문서 해석과 웹 내비게이션을 포함하는 GAIA 벤치마크에서 테스트됐다.

단독 실행 시 162개 과제 중 30.3%를 수행했지만, 사용자가 도울 경우에는 성공률이 51.9%로 71% 향상됐다. 더 복잡한 시뮬레이션 사용자 설정에서도 성공률은 42.6%로 상승했다.

흥미롭게도 사용자 개입은 전체 작업 중 단 10%에서만 필요했고, 평균적으로 도움 요청은 1.1회에 그쳤다. 이는 적은 개입으로도 성능 향상이 크다는 점을 입증한다.

마젠틱-UI는 '저장된 계획(Saved Plans)' 갤러리를 제공해 과거에 사용한 전략을 세배 빠르게 불러올 수 있도록 했다. 이 기능은 양식 작성처럼 반복되는 작업에 특히 유용하다.

보안도 강화했다. 브라우저 조작과 코드 실행은 모두 도커(Docker) 컨테이너 안에서 이루어져 사용자 자격 증명이 노출되지 않으며, 사이트 접근은 허용 목록으로 제한할 수 있고, 모든 행동은 승인 확인 절차를 거칠 수 있다. MS의 레드팀 테스트에서는 피싱 공격과 프롬프트 인젝션 상황에서도 적절히 차단하거나 사용자 확인을 요청했다.

마젠틱-UI는 지난해 공개된 멀티 에이전트 시스템인 마젠틱-원(Magentic-One) 위에 구축됐으며, MS의 에이전트 프레임워크인 오토젠(AutoGen)을 기반으로 작동한다.

이 프로젝트는 깃허브에 오픈소스로 공개돼 있으며, 애저 AI 파운드리 랩스에서도 사용할 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>