컨텐츠로 건너뛰기
검색
ITWorld 언론사 이미지

엣지 브라우저에서 작동하는 AI, MS 경량 추론 모델의 미래

ITWorld
원문보기

엣지 브라우저에서 작동하는 AI, MS 경량 추론 모델의 미래

서울흐림 / 4.5 °

대규모 언어모델(LLM)은 강력하지만, 일상적인 AI 활용에는 연산 자원과 에너지를 지나치게 소모한다. 텍스트 요약, 문장 재작성, 간단한 프롬프트 응답처럼 비교적 단순한 작업은 굳이 데이터센터에서 처리할 필요가 없다.


이러한 과제를 해결할 대안으로 소형 언어모델(SLM)이 주목받고 있다. 마이크로소프트는 파이(Phi) 계열 모델을 중심으로 PC 기반 추론 아키텍처를 개발하고 있으며, 최근에는 파이 4 미니 인스트럭트(Phi-4-mini-instruct) 모델을 선보였다. 이 모델은 3억 5,000만 개의 파라터를 기반으로 5조 개의 토큰을 학습했으며, 엣지 디바이스에서 실행 가능하도록 설계됐다.


기존에는 이러한 모델을 활용하려면 사용자가 직접 다운로드 및 설치를 해야 했다. 윈도우 코파일럿 플러스 PC에 탑재된 파이 실리카(Phi Silica) 같은 모델도 있지만, 특정 모델이 로컬에 없으면 실행이 불가능하다는 단점이 있었다.


이러한 제약을 해소하기 위해 엣 마이크로소프트는 지 브라우저에 직접 언어모델을 내장하는 기능을 실험적으로 도입했다. 브라우저는 사용자의 추가 설정 없이 자동으로 모델을 다운로드하고 업데이트하며, 자바스크립트 API를 통해 바로 호출할 수 있다.



브라우저가 호스팅하는 소형 언어모델


이 기능은 현재 엣지 개발자 채널과 엣지 카나리아 채널을 통해 제공되며, 웹NN, 웹GPU, 웹어셈블리 등 복잡한 설정 없이 사용할 수 있다. 브라우저 자체가 AI 모델을 관리하고 로컬에서 추론을 실행하기 때문에 비용 절감은 물론, 개인정보 보호 측면에서도 유리하다. 데이터가 외부로 전송되지 않기 때문에 민감 정보가 학습 데이터로 유출될 위험도 줄어든다.


초기 제공되는 기능은 ▲텍스트 요약, ▲작성 및 재작성, ▲기본 프롬프트 처리의 세 가지 텍스트 중심 서비스이며, 향후에는 번역 기능도 추가될 예정이다.



엣지에서 파이(Phi) 모델을 실행하는 방법


기능을 사용하려면 엣지의 실험 채널에서 각 기능에 해당하는 설정 플래그를 활성화한 뒤 브라우저를 재시작하면 된다. 이후 제공되는 샘플 웹 애플리케이션에서 모델 다운로드 및 API 테스트가 가능하다. 다운로드는 수 분 이상 걸릴 수 있으며, 초기 개발 단계인 만큼 일부 버그도 존재한다.


일단 모델이 다운로드되면 이후 모든 API에서 로컬 모델을 자동으로 활용할 수 있다. 네트워크 연결 없이도 작동하며, 업데이트가 있을 때만 새로 다운로드된다. 샘플 페이지는 HTML 폼 기반이며, 프롬프트 API는 사용자 프롬프트와 시스템 프롬프트, JSON 스키마 제약 조건을 설정할 수 있다. 예시로 제공된 감정 분석 샘플은 출력 결과를 감정과 신뢰도로 제한해 정형화된 JSON 결과를 제공한다.



구조화된 프롬프트와 출력 제약이 핵심


브라우저에서 로컬로 실행되는 모델은 중앙화된 보호 장치가 없기 때문에, 신뢰할 수 있는 시스템 프롬프트와 출력 제약 스키마를 설정하는 것이 필수적이다. 열린 프롬프트는 예측 불가능한 응답을 유발할 수 있기 때문이다. 감정 분석처럼 명확한 목적과 정해진 출력 구조를 갖춘 작업이 권장된다.


출력 형식을 제한하면 웹 애플리케이션과의 통합도 쉬워진다. 예를 들어, 부정적인 감정이 탐지된 콘텐츠 옆에 붉은 아이콘을 표시하는 사용자 인터페이스를 구성할 수 있다.


개발자는 자바스크립트의 LanguageModel 객체를 사용해 모델을 호출할 수 있으며, 먼저 해당 API가 지원되는지 확인한 뒤 모델 다운로드 여부를 검사한다. 다운로드 완료 후에는 세션을 정의하고 시스템 프롬프트를 설정해 기본 맥락을 제공할 수 있다. N-shot 프롬프트 방식으로 출력 구조를 안내하거나, 생성 길이·무작위성 등 다양한 파라미터도 설정 가능하다.


세션은 복제하거나 페이지 종료 시 제거 가능하며, 출력 결과는 스트리밍 또는 비동기 방식으로 받을 수 있다. 출력 제약 조건은 JSON 또는 정규표현식으로 설정할 수 있어, 애플리케이션에 맞춘 유연한 응답 제어가 가능하다.


문서 요약 또는 문장 재작성 기능도 유사한 구조로 작동한다. 요약의 길이, 문체, 출력 포맷(일반 텍스트 또는 마크다운)을 설정할 수 있다.



실행 환경 : 현재는 GPU, 향후에는 NPU까지


코파일럿 플러스 PC에서 테스트한 결과, 현재 엣지는 윈도우의 NPU를 사용하지 않고 GPU에서 모델을 실행하고 있다. 이는 다양한 PC 환경에서 실행 가능하도록 GPU 중심으로 설계된 것으로 보인다. 향후에는 GPU와 NPU를 모두 지원하는 방식으로 확장될 가능성이 크다.


윈도우 ML API는 ONNX 기반으로 CPU, GPU, NPU를 통합 지원하며, 이를 통해 브라우저가 하드웨어 스펙을 자동 인식하고 최적화된 모델을 다운로드하는 구조도 가능하다.


2025년 마이크로소프트 개발자 행사(Build)에서 공개된 AI 전략은 이러한 방향성을 더욱 분명히 했다. 브라우저 안에 신뢰성과 보안을 확보한 경량 AI 환경을 구축하고, 표준 API를 기반으로 다양한 기기에서 동일하게 작동하는 AI 애플리케이션을 구현하는 것이 핵심 목표다.


dl-itworldkorea@foundryco.com



Simon Bisson editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지