컨텐츠 바로가기

05.02 (목)

이슈 IT기업 이모저모

마이크로소프트, ‘대화하는 얼굴’ 생성 AI ‘VASA-1’ 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
모리슨 “현실적인 입모양 동기화”
MS 연구팀만 이용 가능, 공개 미정
실감나는 AI 특화 립싱크와 얼굴 표현


매일경제

Vasa1

<이미지를 클릭하시면 크게 보실 수 있습니다>


마이크로소프트는 사용자의 사진과 음성 샘플을 업로드하면 실시간으로 대화하는 얼굴 애니메이션을 생성할 수 있는 새로운 인공지능(AI) 모델 ‘VASA-1’을 발표했다고 19일 밝혔다.

톰스가이드에 따르면 해당 기술은 한 장의 초상화 사진과 오디오 파일만으로 고도의 리얼리즘을 구현한 입모양 동기화와 얼굴 움직임을 담은 영상으로 변환한다.

VASA-1은 현재 연구용 프리뷰 단계로, 마이크로소프트 연구팀 외에는 아직 사용해볼 수 없다. 그러나 공개된 데모 영상은 이미 품질 면에서 높은 수준을 보여주고 있으며, 기존 립싱크 기술과 비교하여 입 주위의 잔상 없이 자연스러운 움직임을 구현해내고 있다. 이 모델은 가상 캐릭터의 애니메이션화뿐만 아니라 실제 사진을 대상으로도 작동하는 가능성을 보여준다.

아울러 VASA-1은 고정된 전면 이미지가 아닌 다양한 방향의 샷에도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 입력으로 받아 표현할 수 있는 높은 조절 능력을 갖췄다. 이 기술의 주요 사용 사례로는 게임 내 AI 구동 NPC의 자연스러운 립싱크 개선, 소셜 미디어용 가상 아바타 제작, AI 기반 영화 제작 등이 있을 수 있다.

마이크로소프트 연구팀은 VASA-1이 노래에 맞춰 완벽한 입모양 동기화를 보여줬으며, 심지어 ‘모나리자’와 같은 이미지 스타일에서도 문제없이 작동했다고 밝혔다.

현재 이 모델은 512x512 픽셀 이미지를 초당 45프레임으로 생성할 수 있으며, 이 작업은 데스크탑급 엔비디아 RTX 4090 GPU를 사용해 약 2분이 소요된다. 연구 단계에 머물러 있는 이 기술이 개발자에게나 대중에게 공개될 가능성은 아직 미지수이다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.