컨텐츠 바로가기

03.03 (월)

AI 에이전트를 위한 웹 브라우저 자동화 프로젝트 ‘브라우저 유즈’

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

‘브라우저 유즈(Browser Use)’는 AI 에이전트가 웹사이트에 접근할 수 있도록 하기 위해 매그너스 뮐러와 그레고르 주니치가 개발한 오픈소스 프로젝트다. 2025년 1월 기준, 이 프로젝트의 깃허브 리포지토리는 2만 1,000개 이상의 스타와 51명의 기여자를 보유하고 있다. 이는 AI 자동화 분야에서 브라우저 유즈의 인기가 점점 더 높아지고 있음을 반영한다.


일반적으로 AI 에이전트와 외부 애플리케이션을 통합하는 데는 API가 선호되지만, 디지털 상호 작용에서는 웹 브라우저 자동화가 중요한 역할을 한다. 브라우저 유즈는 AI 에이전트를 웹 브라우저에 직접 연결해 자율적으로 웹사이트를 탐색하고 상호 작용하며, 정보를 추출할 수 있도록 지원함으로써 AI와 웹 브라우징 간의 기술적 단절을 효과적으로 해소한다. 이 기능은 데이터 수집부터 복잡한 다단계 워크플로우에 이르는 작업을 수행할 수 있는 지능형 웹 네이티브 에이전트를 만들고자 하는 개발자에게 유용하다.


브라우저 유즈는 어떤 문제를 해결하는가?


웹 자동화 및 브라우저 상호 작용은 오랫동안 개발자와 AI 연구자에게 어려운 과제였다. 셀레늄(Selenium)과 같은 전통적인 도구는 동적 웹 요소, 복잡한 사용자 상호 작용, 그리고 다양한 브라우저 환경에서의 테스트 안정성 유지와 같은 문제에 어려움을 겪는다.


또한 기존의 웹 자동화 프레임워크는 유연성이 부족하며, 광범위한 코딩 전문 지식과 지속적인 유지 관리가 필요해 개발팀에 상당한 부담을 준다.


현재의 브라우저 자동화 환경은 분산되어 있고 비효율적이다. 개발자는 다음과 같은 여러 문제에 직면한다.


  • - 빠르게 변화하는 동적 웹 콘텐츠 관리
  • - 크로스 브라우저 호환성 보장
  • - 신뢰할 수 있는 상호 작용 스크립트 개발
  • - 웹 애플리케이션 발전에 따른 테스트 스위트 유지보수

웹에서 상호 작용을 시도하는 AI 에이전트는 훨씬 더 복잡한 문제에 직면한다. 기존 솔루션 대부분은 웹사이트를 자율적으로 탐색하고, 복잡한 UI 요소를 해석하고, 중단 없이 여러 단계의 작업을 수행할 수 있는 유연성이 부족하다. 이로 인해 작업 도중 오류가 발생하기 쉽다. 실제로 웹아레나(WebArena) 리더보드에 따르면, 최고 성능을 보이는 AI 모델조차 실제 웹 작업을 시도할 때 성공률이 35.8%에 불과하다.


이런 한계는 특히 개발자, AI 연구자, 자동화 엔지니어에게 영향을 미친다. 지능형 웹 브라우징 에이전트를 구축하려는 스타트업과 기업은 현재의 기술적 제약에 가로막혀 다양한 웹 환경과 안정적으로 상호 작용할 수 있는 강력하고 적응력 있는 솔루션을 만들기 어려운 상황이다.


브라우저 유즈 자세히 살펴보기


브라우저 유즈는 파이썬 개발자를 위해 AI 에이전트가 원활하게 웹을 탐색할 수 있도록 설계된 오픈소스 라이브러리다. 이 라이브러리는 AI가 동적으로 웹사이트와 상호 작용할 수 있도록 강력한 프레임워크를 제공하며, 다양한 프로그래밍 환경에서 인간과 유사한 브라우징 동작을 모방할 수 있도록 지원한다.


브라우저 유즈의 핵심 브라우저 자동화 기술은 마이크로소프트가 개발한 강력한 크로스 브라우저 자동화 라이브러리인 플레이라이트(Playwright)를 기반으로 한다. 플레이라이트는 크로미움, 파이어폭스, 웹킷 브라우저에 대한 통합 API를 제공해 안정적이고 빠른 웹 자동화를 가능하게 한다. 브라우저 유즈는 플레이라이트의 자동 대기, 네트워크 차단, 강력한 선택 엔진과 같은 고급 기능을 사용해 더욱 지능적이고 탄력적인 웹 인터랙션 에이전트를 구축할 수 있다.


브라우저 유즈는 작업 수행에 있어 크로미움에 크게 의존한다. 현재로서는 로컬 PC에 설치된 기존 브라우저를 활용하도록 설정을 변경하는 방법은 확인되지 않았다.


이 프로젝트는 다양한 모델을 지원한다.


  • - 오픈AI GPT 모델
  • - 구글 제미나이
  • - 애저 오픈AI
  • - 앤트로픽 클로드
  • - 딥시크(DeepSeek)
  • - 올라마(Ollama)

브라우저 유즈는 다음과 같은 차별화된 기능을 갖추고 있다.


  • - 여러 LLM과의 통합 지원
  • - 지속적인 브라우저 세션 유지
  • - 복잡한 워크플로우 관리
  • - 지능형 DOM 상호 작용

또한 이 라이브러리는 다음과 매끄럽게 통합된다.


  • - 랭체인(AI 워크플로우 관리용)
  • - 플레이라이트(크로스 브라우저 자동화 지원)
  • - 주요 AI 개발 플랫폼

브라우저 유즈는 계층적 에이전트 아키텍처를 채택하고 있다. 주요 요소는 다음과 같다.


  • - 작업을 세분화하는 플래너 에이전트
  • - 웹 상호 작용을 수행하는 브라우저 내비게이션 에이전트
  • - 웹 페이지를 감지하고 조작할 수 있는 유연한 기능

또한 브라우저 유즈는 랭체인과의 통합을 통해 이미 널리 사용되는 LLM 지원을 효과적으로 활용할 수 있다.


프레임워크를 탐색하는 과정에서 발견한 한 가지 제한점은 크루AI(CrewAI), 오토젠(AutoGen), 필데이터(PhiData)와 같은 주요 에이전트 프레임워크와의 통합이 부족하다는 점이다. 이로 인해 맞춤형 도구를 개발하고 에이전트에 등록해야 했다. 출력의 JSON 스키마를 이해하고 최종 콘텐츠를 신중하게 추출하는 과정이 필요했기 때문에 이는 단순한 과정이 아니었다.


브라우저 사용의 주요 사용례


웹 리서치 및 데이터 추출 : 브라우저 유즈를 통해 AI 에이전트는 복잡한 웹사이트를 자율적으로 탐색하고, 구조화된 정보를 추출하며, 포괄적인 조사 작업을 수행할 수 있다. 예를 들어, AI 에이전트는 다음과 같은 작업을 수행할 수 있다.


  • - 구인 사이트에서 일자리 목록을 검색하고 상세한 채용 공고 정리
  • - 여러 전자상거래 플랫폼에서 제품 정보 수집
  • - 웹사이트를 실시간으로 분석해 경쟁사 정보 수집

워크플로우 자동화 : 이 라이브러리를 사용하면 AI 에이전트가 사람처럼 웹 인터페이스와 상호 작용할 수 있어 다음과 같은 다단계 프로세스를 자동화할 수 있다.


  • - 온라인 양식 자동 입력
  • - 여행 예약 진행
  • - 택배 배송 추적
  • - 계정 등록 및 업데이트 관리

크로스 플랫폼 통합 : 브라우저 유즈는 여러 LLM 및 프레임워크와의 원활한 통합을 지원하므로 개발자는 다양한 분야에서 복잡한 웹 상호 작용이 가능한 AI 에이전트를 개발할 수 있다.


필자는 GPT-4o와 브라우저 유즈를 활용해 봇디텍트 캡차(BotDetect CAPTCHA) 데모를 우회하는 실험을 진행했다. 그 결과, 75%의 성공률을 보였다.


IDG

<이미지를 클릭하시면 크게 보실 수 있습니다>


브라우저 자동화를 위한 AI 에이전트 활용


브라우저 유즈는 AI 에이전트 개발에서 중요한 혁신을 이뤘다. 이 프로젝트는 웹 자동화 및 브라우저 상호 작용에 있어 중요한 과제를 해결하며, AI 에이전트가 웹사이트를 동적으로 탐색할 수 있도록 하는 오픈소스 프레임워크를 제공해 현재의 웹 자동화 기술의 한계를 보완한다.


이 프로젝트는 개발자들의 협업을 기반으로 성장하고 있으며, 전 세계 개발자의 기여를 적극적으로 환영한다. 깃허브 커뮤니티가 활발하게 운영되고 있으며, 오픈 이슈를 통해 지속적인 기능 확장이 이뤄지고 있다. 또한, 투명한 개발 접근 방식과 MIT 라이선스를 채택해 개인 개발자뿐 아니라 기업에서도 쉽게 활용할 수 있다.


브라우저 유즈의 상용 대안으로는 브라우저베이스(BrowserBase)가 있다. 브라우저베이스는 웹 자동화를 위한 헤드리스 브라우저 인프라를 제공하며, 고급 디버깅, 세션 기록, 프록시 지원, 봇 탐지를 우회하는 스텔스 메커니즘과 같은 기능이 특징이다. 브라우저 유즈가 라이브러리 형태로 제공되는 반면, 브라우저베이스는 엔터프라이즈 환경에서 확장할 수 있는 웹 자동화 솔루션을 위한 완전한 인프라 플랫폼을 제공한다.


결론


브라우저 유즈는 AI 에이전트를 웹 브라우저와 통합하려는 개발자에게 중요한 도구로서 자리 잡고 있다. 포괄적인 기능과 사용 편의성, 활발한 커뮤니티 지원을 강점으로 AI 기반 웹 자동화 분야에서 중요한 자산이 되고 있으며, AI와 브라우저 간 매끄러운 상호 작용을 촉진함으로써 지능형 웹 애플리케이션의 발전에 기여하고 있다.
dl-itworldkorea@foundryco.com




Janakiram MSV editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.