틱톡 경쟁사인 콰이쇼우(Kuaishou)
프롬프트 입력 한번에 2분 영상 생성
중국 텍스트 투 비디오 모델 경쟁력 강화
“실제 영상 5초 불과해, 더 지켜봐야”
프롬프트 입력 한번에 2분 영상 생성
중국 텍스트 투 비디오 모델 경쟁력 강화
“실제 영상 5초 불과해, 더 지켜봐야”
콰이쇼우(Kuaishou)가 중국판 소라를 10일 발표했다. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
전 세계가 오픈AI가 개발한 동영상 생성 인공지능(AI)인 소라(Sora)의 공개 사용을 기다리고 있는 가운데, 중국내 틱톡 경쟁사인 콰이쇼우(Kuaishou)가 중국판 소라를 10일 발표했다.
클링(Kling)이라는 모델은 오픈 액세스 형태로 제공되며, 일부에 있어서는 소라보다 더 뛰어난 것으로 알려졌다. 콰이쇼우는 작년 윌 스미스 동영상을 시연해 비판받았다. 스미스의 얼굴이 악마 같이 일그러졌고, 국수 형태를 알아보기 힘들었기 때문이다. 하지만 이번에는 ‘한 중국 남성이 테이블에 앉아 젓가락으로 국수를 먹는다’는 프롬프트에 대한 시연으로 주변을 놀라게했다.
영상 속 AI 캐릭터가 흡사 사람과 같았고, 손가락, 면발 등에 대한 오류가 보이지 않아서다. 클링은 1080p 해상도에 초당 30프레임으로 단 하나의 프롬프트로 2분 분량의 비디오를 생성할 수 있다는 점에서 오픈AI 소라를 능가한 것으로 보인다. 다만 실제로 어느 정도 컴퓨팅 파워를 소모하는지 등에 대해선 알려진 것이 없다. 또 콰이쇼우는 세계의 물리적 특성을 정확하게 시뮬레이션한다고 덧붙였다. 또 공개한 영상은 모두 5초짜리다.
확산 트랜스포머 아키텍처를 활용하는 클링은 풍부한 텍스트 프롬프트를 생생한 장면으로 변환한다. 3D VAE와 가변 해상도 훈련을 통한 다양한 종횡비 지원을 통해 클링은 전신사진 한 장만으로도 완벽한 표현과 사지 움직임을 가능하게 하는 진보된 3D 얼굴 및 신체 재구성 기술을 갖추고 있다는 것이 회사 측 설명이다.
이번 발표를 놓고 중국이 인공지능 모델 구축 분야에서 점점 앞서 나가고 있는 것으로 보인다. 오픈AI는 올해 말까지 소라를 출시할 계획이라고 밝혔지만, 중국의 텍스트 투 비디오 모델을 따라잡기에는 너무 늦을 수도 있다는 것이 중론이다. 클링은 중국의 첫 번째 비디오 생성 모델이 아니다. 지난 4월에 출시된 비두 에이아이(Vidu AI)는 16초 길이 영상을 생성했다.
콰이쇼우(Kuaishou)가 생성한 기타치는 팬더 동영상 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
콰이쇼우(Kuaishou)가 생성한 커피 마시는 토끼 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.