알리바바, 실시간 멀티모달 AI '큐웬3-옴니' 공개…오픈AI·구글 맞불 : zum 뉴스

[AI리포터] [디지털투데이 AI리포터] 알리바바가 GPT-4o와 구글 제미나이 2.5-플래시에 대응하는 멀티모달 인공지능(AI) 모델 큐웬3-옴니(Qwen3-Omni)를 공개했다.

23일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)에 따르면 큐웬3-옴니는 텍스트, 오디오, 이미지, 비디오 입력을 처리하며, 텍스트·음성으로 응답하는 통합 AI 시스템이다. 알리바바는 이를 통해 AI 시장에서 글로벌 경쟁력을 강화할 계획이다.

알리바바는 큐웬3-옴니가 오디오 인식, 이미지·비디오 이해 등 주요 AI 성능 테스트에서 GPT-4o와 구글 제미나이 2.5-플래시를 뛰어넘는 결과를 보였다고 주장했다. 개발팀은 대규모 오디오 데이터셋 구축이 성능 향상의 핵심이라고 설명하며, AI의 다국어 대응 능력도 강조했다. 큐웬3-옴니는 119개 언어 텍스트 입력을 지원하며, 10개 언어로 음성을 생성할 수 있다.

이번 발표에는 오픈소스 이미지 편집 툴 큐웬-이미지-에딧-2509(Qwen-Image-Edit-2509)와 AI 음성 모델 큐웬3-TTS-플래시(Qwen3-TTS-Flash)도 포함됐다. 알리바바는 새로운 이미지 툴이 편집 과정에서 이미지 일관성을 개선했으며, 음성 모델은 사람처럼 자연스러운 음성을 생성할 수 있다고 밝혔다. 큐웬-3 옴니 시리즈는 허깅페이스와 깃허브에서 오픈소스로 제공되며, 큐웬3-TTS-플래시는 알리바바 클라우드를 통해 독점적으로 제공된다.

알리바바는 AI 기술 경쟁에서 밀리지 않기 위해 연구개발을 지속적으로 확대하고 있으며, 중국 내 AI 산업 발전에도 기여할 전망이다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.