최근 마이크로소프트가 선보인 윈도우용 코파일럿 비전(Copilot Vision for Windows)은 사용자 화면을 인식하고 상황에 맞춰 도움을 제공하는 AI 어시스턴트다. 복잡한 작업을 수행할 때 사용자의 어깨 너머에서 화면을 바라보며 “여기를 클릭하세요”, “이렇게 하세요”라고 안내하는 역할을 목표로 한다. 코파일럿 비전이 윈도우 솔리테어 게임 플레이를 도와줄 것으로 기대했지만, 그러지 않았다. 기대와 달리 코파일럿 비전의 성능은 때때로 실망스러웠다.
사용자의 화면을 인식해 사용자가 PC와 대화하며 도움을 요청할 수 있도록 하는 이 기능은 AI의 실용성을 한 단계 끌어올린 듯한 인상을 주기도 한다. 그러나 아쉽게도 이런 발전은 종종 뻔한 문제로 이어진다. 윈도우용 코파일럿 비전은 실제로 유용하게 작동할 때도 있지만, 다른 경우에는 답답함만을 안겨준다.
윈도우용 코파일럿 비전이란?
윈도우용 코파일럿 비전 발표는 미국 워싱턴주 레드먼드에 위치한 본사에서 열린 마이크로소프트 창립 50주년 기념행사의 하이라이트였다. 말 그대로 ‘시야(vision)’를 가진 혁신적인 기능이다. 사용자가 화면 접근 권한을 부여하면 윈도우 코파일럿은 실시간으로 화면을 인식하고 해석한다. 이후 PC와 대화하며 질문하거나 조언을 구할 수 있다. 필자는 마이크로소프트 본사에서 윈도우용 코파일럿 비전을 체험했지만, 시연은 짧고 엄격하게 통제된 환경에서 진행됐다. 현재는 윈도우 참가자 프로그램에 가입한 사용자를 대상으로 배포된 상태다.
윈도우용 코파일럿 비전을 사용하는 방법
마이크로소프트는 윈도우용 코파일럿 비전을 모든 베타 소프트웨어 채널에서 사용할 수 있도록 할 계획이라고 밝혔지만, 실제로 필자가 테스트한 노트북 중 해당 빌드를 받은 것은 2대에 불과했다. 하나는 개발자 채널(Dev Channel), 다른 하나는 카나리아 채널(Canary Channel) 버전이었다.
가장 먼저 윈도우용 코파일럿 비전을 적용한 기기는 AMD 라이젠 7840U 프로세서를 탑재한 에이서 스위프트 엣지(Swift Edge) 노트북이었다. 초기에는 반응 속도가 최대 30초까지 지연되는 등 실행 속도가 매우 느렸지만, 이후에는 몇 초 수준으로 개선됐다. 반면 퀄컴 스냅드래곤 X 엘리트(Qualcomm Snapdragon X Elite) 칩을 탑재한 서피스 랩톱 7(Surface Laptop 7)에서는 훨씬 더 뛰어난 사용 경험을 제공했다. 더 강력한 NPU 덕분인지 이 기기에서는 사실상 즉각적인 응답이 이뤄졌다.
사용 방법은 간단하다. PC가 해당 기능을 지원하도록 설정돼 있다면, 작업 표시줄이나 시작 메뉴에서 코파일럿 앱을 실행한 뒤 ‘안경’ 아이콘을 클릭하면 된다. 그러면 사용자가 코파일럿 비전에 ‘공유’할 수 있는 앱 목록이 표시된다. 코파일럿 비전은 사용자가 선택한 특정 앱의 화면만 인식할 수 있으며, 그 외의 앱은 볼 수 없다.
Mark Hachman / Foundry |
필자는 코파일럿 비전의 테스트 버전을 총 7가지 시나리오에서 사용했다. PCWorld 기사와 경쟁 항공 요금 목록 해석, 카드 게임 요소를 포함한 인기 PC 게임 발라트로(Balatro)와 고전 게임 솔리테어 플레이, 사진 식별, 항공 요금 비교, 어도비 포토샵 사용 지원 등이 포함됐다. 코파일럿 비전의 성능은 시나리오마다 매우 들쭉날쭉했다.
테스트 1. 관세 이해
윈도우용 코파일럿 비전에서 가장 중요하고 기본적인 개념은 사용자가 보는 것만 인식한다는 점이다. 필자는 동료가 작성한 트럼프 행정부의 관세 정책 초기 분석 기사를 열었을 때 이런 특징을 실감했다. 코파일럿 비전은 기사 전체를 즉시 인식하지 않았다. 반면 코파일럿, 구글 제미나이, 챗GPT 같은 서비스의 ‘리서치’ 모드에서는 전체 기사를 인식한다.
사용자가 보는 것만 볼 수 있으므로, 이 스크린샷은 정보 습득에 도움이 되지 않는다.Mark Hachman / Foundry |
필자가 화면을 아래로 스크롤하면 코파일럿 비전은 그 부분을 ‘읽을’ 수 있었지만, 메모리에 저장하지는 않았다. 화면에 보이지 않아 인식할 수 없는 내용은 곧바로 잊어버렸다. 필자가 첫 문장을 확인해 달라고 요청했을 때도 답변하지 못했다.
이로 인해 활용도는 다소 제한적이었다. 대화형으로 질문할 수 있다는 점만 유용했다. 당시 해당 제품에 45% 관세가 적용되고 있었는데, 만약 100% 또는 145% 관세가 부과된다면 독 가격이 어떻게 될지 질문할 수 있었던 점은 편리했다. 코파일럿 비전의 답변은 여전히 다소 장황했지만, 큰 문제는 아니었다. 더 큰 문제는 현재의 관세 상황을 설명하는 등 추가적인 맥락을 제공하는 데 소극적이었다는 점이다.
테스트 2. 발라트로 코치
마이크로소프트가 시연한 마인크래프트 데모에서 코파일럿 비전은 매우 구체적인 상황에서 도움을 제공했다. 필자는 그 모습을 보고 의문을 품었다. 당시 시연이 코파일럿 비전의 유용성을 최대한 부각시키도록 치밀하게 구성됐다는 생각이 들었고, 실제로도 그럴 가능성이 크다고 본다.
그래서 필자는 인기 인디 게임인 발라트로에서 코파일럿 비전의 진짜 활용도를 시험해 보기로 했다. 코파일럿은 사용자가 요청하지 않으면 자발적으로 개입하지 않는다고 설명했다. 즉, 화면에 유용하거나 위험한 상황이 보이더라도 스스로 경고하거나 조언하지 않는다는 의미다. 반드시 사용자의 질문이 있어야만 반응한다.
이 스크린샷에서 퀸 카드가 몇 개 보이는가?Mark Hachman / Foundry |
발라트로는 비디오 포커에 독특한 요소가 추가된 게임이다. 최고의 포커 핸드를 만드는 것뿐만 아니라, 핸드와 점수에 영향을 미치는 조커 카드라는 규칙이 있어 전략적으로 신중한 선택이 요구된다. 코파일럿 비전은 이런 게임 상황을 인식하고 플레이 전략에 대해 조언할 수 있을까?
결론부터 말하면 그러지 않았다. 코파일럿 비전은 사용자가 발라트로를 플레이 중이라는 점과 게임이 시작될 때 주어진 선택지를 인식하는 데는 성공했다. 사용자를 대신해 결정을 내려주지는 않았지만, 플레이어가 선택할 수 있는 옵션을 나열했다.
코파일럿 비전은 2장의 퀸이 있다고 봤다. Mark Hachman / Foundry |
하지만 코파일럿 비전은 사용자가 퀸 카드 페어를 갖고 있지 않다는 사실을 인식하지 못했다. 이로 인해 처음부터 부정확한 조언을 제공했다. 또한 실제로는 존재하지 않는 다이아몬드 7 카드를 보유 중이라고 잘못 인식하는 등 필자가 가진 카드조차 제대로 파악하지 못했다.
테스트 3. 솔리테어 코치
이번에는 난이도를 조금 낮춰보기로 했다. 윈도우 솔리테어를 프리셀 모드로 실행하면 코파일럿이 단순한 규칙을 이해하고 제대로 작동할 것으로 기대했다.
전혀 아니었다. 코파일럿 비전은 발라트로 테스트에서 드러난 것과 동일한 문제를 겪었다. 사물 인식 정확도가 현저히 떨어졌다. 카드가 열에서 다른 열로 이동하거나 파운데이션으로 옮기는 기본적인 게임 규칙은 이해했지만, 게임 화면에 존재하지 않는 카드를 반복적으로 잘못 인식했다. 코파일럿 비전이 인식한 게임 화면은 실제 화면과 전혀 일치하지 않았다. 결국 필자는 빠르게 테스트를 중단했다.
Mark Hachman / Foundry |
필자는 “당신이 솔리테어 최고의 플레이어인지는 잘 모르겠다”라고 말했다. 이에 코파일럿은 “일리 있는 지적이다! 그래도 가장 중요한 건 재미 아니겠나”라고 답했다. 이어 “적어도 대화 상대 역할은 잘하고 있다. 계속 플레이하면서 어디까지 가는지 보자. 다음 수를 둘 준비가 됐나?”라고 덧붙였다.
코파일럿 비전은 다음 수를 둘 준비가 전혀 되지 않았다.
테스트 4. 이메일 작성 보조
이다음은 비교적 간단한 테스트였다. 필자는 다른 AI 서비스를 통해 가상의 상사에게 보내는 불만 편지 초안을 작성했다. 회사 전략에 대한 불만을 담고 있었다. 코파일럿은 해당 편지의 어조와 표현에 별다른 문제가 없다고 판단했다.
이후 필자는 편지의 마지막에 “당신은 못생겼고 머리가 크다. 당신의 모자도 마음에 들지 않는다”라는 문장을 추가했다. 하지만 코파일럿 비전은 이 문장이 경력에 치명적일 수 있다는 점을 인식하지 못했거나 아예 신경 쓰지 않았다. 대화가 아무런 제약 없이 그대로 이어진 것을 보면 필자는 코파일럿이 이런 표현에 개의치 않는다고 확신한다.
코파일럿 비전은 필자가 상사의 외모와 패션 센스를 비난하는 것을 쿨하게 받아들였다.Mark Hachman / Foundry |
참고로 이 테스트는 필자의 실제 음성을 전달하는 방식으로 진행했기 때문에 스크린샷의 문장과 기사의 내용이 정확하게 일치하지 않을 수 있다. 코파일럿 비전의 장점은 일련의 명령어 입력 방식이 아닌 자연스러운 대화 형식으로 상호작용할 수 있다는 점이다.
어쨌든 필자는 이 기능을 직업 상담이나 경력 관리 툴로 활용할 생각은 없다.
테스트 5. 사진 속 인물 인식
필자는 빙 이미지 검색으로 모은 사진 모음 중, 영화 ‘조찬 클럽(The Breakfast Club)’의 포스터 사진에 등장하는 4명의 배우를 식별해 달라고 코파일럿에 요청했다. 흥미롭게도 코파일럿 비전은 이를 수행할 수 있을 것처럼 보였지만, 정책상 제한으로 인해 거부했다. 코파일럿은 “죄송합니다. 유명 인물이 아닌 경우 사진 속 특정 인물을 식별할 수 없습니다”라며 “이 이미지는 영화 조찬 클럽과 관련된 것으로 보입니다”라고 답했다.
다시 시도하자 코파일럿 비전은 영화 조찬 클럽의 주요 출연 배우 5명을 식별했다. 그러나 필자가 사진 속에는 4명만 보인다고 답하자, 코파일럿은 그제야 원하는 답변을 제공했다. 코파일럿은 공인이 아닌 일반인의 정보를 식별하거나 공개하지 않도록 설정된 듯했다.
이 화면에는 배우들이 누구인지에 대한 단서가 많다. 하지만 코파일럿 비전은 4명이 아니라 5명으로 인식했다. Mark Hachman / Foundry |
흥미롭게도 코파일럿 비전은 스스로 배우를 인식할 수 있는 것으로 보인다. 필자가 유명 인물이라는 점을 먼저 언급한 뒤 로드니 데인저필드의 사진을 식별해 달라고 요청했을 때, 코파일럿은 다음과 같이 답했다.
“창 제목에 ‘로드니 데인저필드에 대한 15가지 흥미로운 사실(15 intriguing facts about Rodney Dangerfield)’이라는 문구가 포함돼 있어 해당 맥락을 바탕으로 인물 정보를 확인했습니다. 또한 사진이 그의 독특한 외모와 일치했습니다. 그의 코미디 스타일에 관심이 있으신가요?”
테스트 6. 최적의 항공편 선택
이쯤에서 필자는 코파일럿 비전이 항공편 선택에 큰 도움이 되지 않을 것이라는 점을 깨달았다. 그리고 그 예상은 적중했다.
코파일럿 비전은 사용자가 보는 화면만 인식할 수 있기 때문에 오클랜드에서 샌디에이고까지 운항하는 항공편 목록을 위아래로 스크롤하는 것만으로는 충분한 정보를 확보하지 못했다. 코파일럿 비전은 필자가 저렴한 항공편을 선호하는지, 최소 경유 항공편을 선호하는지 등 선호 기준조차 알지 못했다. 애초에 이러한 선택은 개인적인 판단에 의존하는 부분이기도 했다.
일부 스마트폰은 웹 페이지 전체를 한 번에 캡처하는 ‘전체 스크린샷’ 기능을 제공한다. 필자는 코파일럿 비전에도 이와 유사한 기능이 옵션으로 제공되기를 바란다. 다만 코파일럿 비전은 윈도우 리콜(Windows Recall)처럼 일시적인 ‘스냅샷’을 생성해 이를 바탕으로 작동할 가능성도 있다. 리콜도 사용자가 화면에서 내용을 보지 않는 것은 인식하지 않는다.
테스트 7. 포토샵 선생님
필자는 이 테스트를 하고 나서야 코파일럿 비전이 진정으로 도움이 될 수 있겠다고 느꼈다. 마이크로소프트 그림판에는 포토샵이 제공하는 레이어 추가와 배경 제거 기능이 도입됐지만, 여전히 포토샵에는 그림판이 제공하지 않는 다양한 유용한 기능이 많다. 필자는 이런 기능을 자유롭게 활용하는 데 익숙하지 않다.
바로 이 지점에서 코파일럿 비전의 강점이 드러난다. 필자가 여러 레이어에 이미지를 추가하고 조정하는 과정을 반복할 때 코파일럿 비전은 유용한 도움을 제공했다. 다만, 마이크로소프트가 처음 시연에서 보여준 것처럼 화면상의 요소를 시각적으로 강조해 사용자가 쉽게 조작할 수 있도록 안내하는 기능은 제공하지 않았다. 단계별로 설명하는 방식이었다. 특히 ‘이동 도구(Move tool)’를 ‘네 방향 화살표’라고 표현한 점은 상당히 도움이 됐다. 필자가 화면에서 작업 중인 요소를 정확히 인식하고 이를 기준으로 설명했다는 점에서 유용했다.
테스트에서 필자가 정확히 어떤 작업을 했는지 보여주기는 어렵지만, 아래 스크린샷에서 대략적인 대화 내용을 파악할 수 있다. 필자는 인텔 로고를 자사 제품 이미지 중 하나 위에 얹는 등 2개의 관련 이미지로 여러 가지 편집을 시도했다.
Mark Hachman / Foundry |
포토샵 전문가 입장에서 보면 필자의 작업은 매우 기초적인 수준이었을 것이다. 코파일럿 비전이 이미 수많은 포토샵 튜토리얼이 제공하는 내용을 대체한다고 보기도 어렵다. 다만 기존 튜토리얼 중 상당수는 구버전 소프트웨어나 이전 인터페이스를 기반으로 제작돼 있어 코파일럿 비전이 항상 최신 버전에 맞춰 도움을 줄 수 있다는 점은 분명한 장점이라고 생각한다.
결론 : 이제 막 첫걸음을 떼다
AI는 논란의 중심에 있는 기술이다. 어떤 이들은 AI가 아무런 쓸모가 없다고 단언하는 반면, 또 다른 이들은 AI가 언젠가 세상을 구할 것이라고 믿는다. 윈도우용 코파일럿 비전도 때로는 매우 유능하게 느껴지지만, 때로는 시간 낭비처럼 느껴진다. 현재로서는 모든 것이 아직 실험적이고 초기 단계에 머물러 있다는 인상을 준다.
물론 이 기술이 지닌 잠재력은 매우 크다. 그러나 마이크로소프트는 소비자 시장에 조심스럽게 접근하는 모습이다. 작업 중인 화면을 챗GPT가 실시간으로 감시하도록 허용할 생각은 없다. 하지만 구글이 크롬북의 미래를 제미나이가 항상 존재하는 공간으로 구상하고 있으리라는 점은 쉽게 짐작할 수 있다. 필자는 그런 미래가 실현되길 바란다. 양사가 서로 경쟁하며 더 나은 개인 정보 보호와 실시간 지원 기능을 갖춘 도구를 개발하도록 만드는 선순환의 압력이 형성되길 기대한다.
dl-itworldkorea@foundryco.com
Mark Hachman editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지
