‘비전’으로 달라진 코파일럿, 윈도우 PC에서 챗GPT 대안될까? : zum 뉴스

마이크로소프트는 오픈AI에 130억 달러(약 18조 원) 이상을 투자했다. 그리고 윈도우 PC 작업표시줄에 코파일럿을 고정하고 신형 노트북 키보드에 코파일럿 전용 키를 추가했음에도 불구하고, 현재의 코파일럿 시스템은 여전히 챗GPT와 동일한 대형 언어 모델(LLM) 기술 위에 구축돼 있다. 즉, MS가 자체 AI 모델을 출시하기 전까지는 코파일럿이 구조적으로 챗GPT와 비슷할 수밖에 없는 상황이라는 뜻이다.

하지만 이제 PC에서 챗GPT 대신 코파일럿을 사용할 만한 분명한 이유가 생겼다. 바로 마이크로소프트가 앞서 발표했던 기능이자, 윈도우에 기본 탑재되기 시작한 ‘코파일럿 비전(Copilot Vision)’이다. 이 기능을 활용하면 PC에 실행 중인 어떤 애플리케이션이든 코파일럿 AI 챗봇과 공유하고, 그 화면을 바탕으로 대화를 나눌 수 있다. 대화 도중 코파일럿이 화면에 직접 하이라이트를 표시할 수 있는 기능도 포함된다.

매우 흥미로운 기능이지만, 생각보다 많은 제약도 존재한다.

챗GPT vs 코파일럿 : 윈도우에서의 AI 맞대결

그동안 코파일럿은 여러 면에서 챗GPT에 뒤처졌다. 오픈AI는 오랜 시간 동안 챗GPT 인터페이스를 일관되게 유지하며 신뢰를 쌓아온 반면, 마이크로소프트는 코파일럿이 어떤 모습이어야 하는지에 대해 확신 없이 방황하며 방향을 여러 차례 바꿔왔다.

예를 들어, MS는 한때 코파일럿을 영화 <그녀(Her)> 속 개인 AI 동반자에 가까운 형태로 탈바꿈하려 했지만, 최근에는 이처럼 동반자 지향적이던 앱을 없애고 다시 일반적인 챗봇 인터페이스 중심으로 회귀했다. 물론 이는 어디까지나 ‘현재 기준’의 방향일 뿐이다.

하지만 코파일럿에 대한 가장 큰 불만은 ‘명확한 모델 선택 기능이 없다는 점’이다. 챗GPT는 사용자가 어떤 AI 모델을 쓸지 직접 고를 수 있는 세밀한 선택권을 제공하지만, MS의 코파일럿은 ‘빠른 응답’, ‘깊이 생각하기’, ‘심층 연구’ 같은 추상적인 옵션만 드롭다운 메뉴로 제공한다. 빠른 응답을 선택했을 때, GPT-4o가 사용되는 것인지, 아니면 비용 절감을 위해 성능이 낮은 다른 모델로 우회된 것인지 실제로 어떤 모델이 사용되는지 전혀 알 수 없다.

코파일럿의 또 다른 한계는, 마이크로소프트가 지난 몇 년간 ‘코파일럿’이라는 이름으로 매번 새로운 앱을 시작하면서 오히려 발전을 저해하고 있다는 점이다. 챗GPT 앱은 모든 대화 기록을 검색할 수 있고, 폴더로 정리하거나 사용자 경험을 직접 커스터마이징하는 기능을 제공한다. 전반적으로 성숙한 애플리케이션에 가깝다. 반면 마이크로소프트는 기존 앱을 지속적으로 개선하기보다는 코파일럿을 매번 처음부터 다시 만드는 방식을 택했다. 이런 차이가 사용 경험의 완성도에서 그대로 드러나고 있는 셈이다.

‘통합’이라는 마이크로소프트의 비밀 병기

여러 단점에도 불구하고 코파일럿이 챗GPT보다 우위를 점할 수 있는 강력한 무기는 마이크로소프트 생태계와의 통합성이다. 워드와 엑셀 같은 마이크로소프트 365 앱을 사용하는 사용자라면, 챗GPT 플러스 월 20달러 요금제가 아니라 코파일럿 프로(Copilot Pro) 요금제에 가입해야 AI 기능을 제대로 활용할 수 있다. 기업 고객 역시 마이크로소프트 365용 AI 기능을 사용하려면 챗GPT가 아닌 코파일럿을 통해 접근해야 한다.

하지만 M365에는 코파일럿이 빠르게 통합한 반면, 윈도우 통합은 한동안 더뎠다. 이제 그 상황이 바뀌었다. 코파일럿 비전(Copilot Vision)이 등장하면서다. 해당 기능은 처음에는 마이크로소프트 엣지에서 웹페이지를 탐색할 때 적용됐으며, 이달 들어 미국 내 윈도우 11과 윈도우 10에서도 공식 제공되기 시작했다. 앞으로 더 많은 국가로 출시가 확대될 것으로 보인다.

현재로서 이 기능은 실시간 음성 모드에서만 작동한다. 텍스트 모드로 대화하려면, 화면 캡처 이미지를 첨부하고 텍스트 프롬프트를 함께 입력해야 한다. 이는 챗GPT와 동일한 방식이다.

윈도우에서 코파일럿 비전을 사용하는 방법

윈도우에 새롭게 추가된 코파일럿 비전을 사용하려면, 작업표시줄이나 시작 메뉴에서 코파일럿 앱을 실행하면 된다. 코파일럿 전용 키가 탑재된 노트북이라면 해당 키를 누르는 것만으로도 바로 실행할 수 있다.

코파일럿 앱 화면 오른쪽 하단, 텍스트 입력창 오른쪽에 있는 안경 모양 아이콘을 클릭하면 ‘코파일럿과 화면 공유’ 기능을 시작할 수 있다.

이후에는 코파일럿과 공유할 앱 창을 선택하라는 안내가 표시된다. 코파일럿은 PC 전체 화면에 접근하지 않는다. 사용자가 지정한 특정 애플리케이션 창만 볼 수 있다. 또한 코파일럿이 해당 앱 내에서 무언가를 직접 제어할 수는 없다. 다만, 앱 화면의 내용을 읽고 사용자의 시선을 유도하기 위해 하이라이트를 표시한다. 그 외에는 아무런 조작 권한이 없다.

코파일럿은 현재 열려 있는 모든 창 목록을 표시하며, 사용자는 이 중 하나를 선택해 AI 모델과 공유할 수 있다. 단, 한 번에 하나의 창만 공유할 수 있다는 제한이 있다.Chris Hoffman, Foundry

앱 창을 공유한 뒤에는 해당 화면을 기반으로 자유롭게 대화를 나눌 수 있다. 예를 들어, “포토샵에서 이 작업을 정확히 어떻게 해야 하는가?”, “지금 예약하려는 이 호텔 어떤가? 더 나은 옵션이 있을까?” 같은 질문을 던질 수 있으며, 원하는 만큼 대화를 계속 이어갈 수 있다.

앱을 공유하고 음성 대화를 진행하는 동안 화면 하단에는 작은 박스가 떠 있다. 공유를 종료하려면 해당 박스에서 ‘중지’ 버튼을 클릭하면 된다.

코파일럿 비전은 화면 속 특정 요소를 하이라이트로 표시해 사용자의 주의를 유도할 수 있다.Chris Hoffman, Foundry

화면 공유 중 코파일럿에 화면 속 요소를 가리켜 달라고 요청하면 코파일럿은 특정 영역을 하이라이트로 표시한다. 다만 이 기능은 아직 초기 단계로, 한 번에 하나의 항목만 하이라이트할 수 있는 단순한 수준에 그친다. 예를 들어 5단계 메뉴를 거쳐야 하는 옵션을 찾을 때도 코파일럿은 현재 화면에 보이는 아이콘이나 메뉴 항목 중 하나만 하이라이트한다. 복잡한 인터페이스를 순차적으로 빠르게 안내하는 데는 한계가 있다.

여전히 존재하는 챗봇의 고질병

코파일럿 비전의 AI 경험은 현재 대부분의 AI 챗봇이 가진 한계를 그대로 안고 있다. 사용자에게 무조건 긍정적인 반응을 보이려는 경향을 보인다. 즉, 사용자가 틀린 정보를 말해도 이를 지적하거나 수정하기보다는 그대로 맞장구를 치며 동의하는 경우가 많다. 실제로 다음과 같은 대화가 오갔을 때 코파일럿은 필자의 잘못된 정보를 정정하지 않고 오히려 동의했다.

“워드에서 그림 그리는 방법 알려줘.”

“워드에서 그림을 그리려면 리본 메뉴에서 ‘그리기’ 탭으로 이동하면 됩니다.”
“아, 그럼 레이아웃 탭에 있는 거지?”
“맞습니다!”

이는 AI 챗봇 전반이나 오픈AI의 GPT 모델, 혹은 코파일럿 자체에 대한 비판은 아니다. 적어도 현시점에서는 기술이 가진 본질적인 한계일 뿐이다. 코파일럿이든 챗GPT든, 또는 그 밖의 어떤 LLM이든 사용자는 항상 경계심을 갖고 응답의 정확성을 스스로 검증할 필요가 있다.

AI 음성 모드의 한계도 아쉬워

음성 모드는 텍스트 기반 LLM 상호작용보다 더 ‘미래적인’ 느낌을 줄 수 있지만, 아직까지는 텍스트 기반 인터페이스가 더 정확하고 풍부한 상호작용을 제공한다. 무엇보다 현재의 음성 기반 대화 경험도 결국 텍스트에 의존한다. 사용자가 말한 음성을 텍스트로 변환한 뒤, LLM이 텍스트 응답을 생성하고, 그 텍스트를 다시 음성으로 읽어주는 별도의 프로세스를 거친다.

LLM은 사용자의 음성에 담긴 감정, 억양, 뉘앙스를 전혀 이해하지 못한다. 또한 사용자가 듣게 되는 코파일럿의 음성이 감정을 담고 있는 것처럼 느껴질 수 있지만, 그 감정 표현은 LLM이 생성한 텍스트 이후에 TTS(Text to Speech) 엔진이 임의로 부여한 것이다.

이런 구조는 결과적으로 불쾌한 골짜기(Uncanny Valley)에 가까운 사용자 경험을 만들어낸다. LLM은 사용자의 목소리에서 감정적 신호나 억양을 전혀 인식하지 못하고, 그에 따른 반응도 할 수 없다. 감정이 담긴 듯한 음성으로 답변이 출력되긴 하지만, 일방적으로 입힌 억양일 뿐이다. 사용자의 실제 감정 상태나 목소리의 뉘앙스에 반응하는 기능은 존재하지 않는다

게다가 음성 기반 상호작용은 본질적으로 텍스트 기반 상호작용보다 더 빠르고 피상적인 대화에 그치는 경우가 많다. 텍스트 기반 상호작용에서는 보다 깊이 있고 분석적인 응답을 얻을 수 있기 때문에 대부분 작업에서는 빠른 음성 대화보다 텍스트 기반 대화가 훨씬 더 효과적이다. 만약 코파일럿이나 챗GPT가 충분히 ‘똑똑하지 않다’고 느껴진다면, 텍스트 모드로 전환하는 것이 더 나은 결과를 이끌 수 있다.

다만 텍스트 모드에서는 실시간 화면 공유 기능이 제공되지 않는다. 사용자는 화면을 캡처해 첨부하고, 그에 대한 설명이나 질문을 텍스트로 입력해야 한다. 코파일럿에서 메시지 입력창 오른쪽의 ‘+’ 버튼을 클릭한 뒤 ‘스크린샷 찍기’를 선택하면 화면을 빠르게 캡처해 첨부할 수 있다. 이 방식은 텍스트 기반 대화에서 비전 기능과 유사한 경험을 구현하는 방법이다.

물론 챗GPT에도 스크린샷을 첨부할 수 있으므로 동일한 방식으로 활용할 수 있다. 하지만 이제는, 적어도 마이크로소프트 입장에서는 사용자가 챗GPT 대신 코파일럿을 선택하도록 유도할 만한 이유가 생긴 셈이다. 윈도우 전용 AI 동반자로서 코파일럿의 입지를 다시 생각해 볼 시점이 됐다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.