컨텐츠로 건너뛰기
검색
뉴스1 언론사 이미지

中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

뉴스1 김민석 기자
원문보기

中알리바바, 오픈소스 시네마틱 영상생성 모델 'Wan2.2' 공개

서울맑음 / -3.9 °

전문가혼합 아키텍처 기반 통합 모델…프롬프트 지원

"복잡하고 창의적 영상도 클릭 한 번에 생성"



알리바바 로고 ⓒ AFP=뉴스1

알리바바 로고 ⓒ AFP=뉴스1


(서울=뉴스1) 김민석 기자 = 알리바바가 세계 최초로 전문가 혼합(MoE) 아키텍처를 적용한 오픈소스 시네마틱 영상 생성 모델 'Wan2.2' 시리즈를 공개했다고 30일 밝혔다.

알리바바 측은 "Wan2.2 시리즈는 텍스트와 이미지 등 다양한 입력 방식을 단일 프레임워크에 통합해 클릭 한 번으로 고품질 영상을 생성할 수 있다"고 설명했다.

Wan2.2 시리즈는 △텍스트 기반 영상 생성(T2V) 모델 Wan2.2-T2V-A14B △이미지 기반 생성(I2V) 모델 Wan2.2-I2V-A14B △텍스트·이미지 통합 하이브리드 모델 Wan2.2-TI2V-5B 등으로 구성됐다.

알리바바 측은 "이들 모델과 MoE 아키텍처 기반으로 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 미적 요소를 세밀하게 제어할 수 있다"며 "인물의 표정 변화, 손 제스처, 스포츠 동작 등 복합적 움직임 묘사에서 뛰어난 성능을 보이며, 현실 세계의 물리 법칙을 반영한 사실적 영상을 제작할 수 있다"고 설명했다.

알리바바에 따르면 Wan2.2 시리즈는 노이즈 제거(denoising) 단계에서 전체 장면을 담당하는 '고노이즈 엑스퍼트'(High-Noise Expert)와 디테일을 다듬는 '저노이즈 엑스퍼트'(Low-Noise Expert) 도입해 연산 부담도 줄였다.

해당 엑스퍼트 모델이 번갈아 동작하며 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화시켜 연산 부담을 최대 50%까지 줄였다는 설명이다.


Wan2.2는 시네마틱 프롬프트 시스템을 지원한다. 기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 늘린 학습 데이터 세트를 바탕으로 복잡한 장면과 창의적 표현을 구현한다.

Wan2.2 시리즈는 △허깅페이스 △깃허브 △알리바바 클라우드 모델스코프 등에서 오픈소스로 내려받을 수 있다. 알리바바는 올해 2월 Wan2.1 시리즈 4종, 5월 영상 생성·편집 통합 모델 Wan2.1-VACE를 오픈소스로 공개한 바 있다.

ideaed@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지. <용어설명> ■ 전문가 혼합(MoE) 전문가 혼합(Mixture-of-Experts)은 인공지능 모델의 효율성과 확장성을 극대화하기 위해 설계된 혁신적인 아키텍처다. 이 기법은 입력 데이터에 따라 특화된 하위 모델(전문가)을 선택적으로 활성화해 연산 비용을 절감하면서도 대규모 모델의 장점을 유지한다. ■ 고노이즈 엑스퍼트 고노이즈 엑스퍼트(High-Noise Expert)는 초기 전체 장면의 구조와 큰 윤곽을 담당하는 전문가다. 이미지 생성 초반 복잡하고 다양한 노이즈가 존재할 때 대규모 연산을 통해 전체적인 형태와 구성을 빠르고 효율적으로 잡아주는 역할을 한다. ■ 저노이즈 엑스퍼트 저노이즈 엑스퍼트(Low-Noise Expert)는 장면의 뼈대가 완성된 상태에서 세밀한 디테일과 미세한 질감·완성도를 높이는 전문가다. 상대적으로 적은 연산으로 고품질의 최종 결과물을 만들어 낸다.