베이징 인공지능 아카데미, 멀티모달 AI 'Emu3' 공개

디지털투데이 원문
입력

2024.10.22 10:38

주소복사가 완료되었습니다

[AI리포터]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] 중국 베이징 인공지능 아카데미(BAAI)가 텍스트, 이미지 및 비디오 등 다양한 형태의 데이터를 이해하는 인공지능(AI) 모델 'Emu3'을 소개했다.

21일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)에 따르면 이는 중국 기업들이 멀티 모달 모델 분야에서 중요한 이정표를 세운 것으로, 미국 선도 기업들과의 격차를 줄이기 위한 중국의 노력의 일환으로 볼 수 있다.

BAAI의 최신 모델인 Emu3은 이미지를 이해하고 비디오 클립을 생성하는 데 사용되는 간소화된 구조적 설계를 채택했다. 한 가지 유형의 입력만 처리하는 기존 모델과 달리, Emu3은 텍스트, 비디오 및 오디오와 같은 다양한 유형의 데이터를 이해할 수 있도록 설계되었다.

Emu3은 텍스트, 이미지 및 비디오 클립을 일관된 토큰 세트로 처리하는 통합된 AI 아키텍처를 활용하여 과업별 모델의 필요성을 제거하고 훈련 과정을 간소화한다. BAAI는 Emu3의 기술 논문을 공개하고, 모델의 핵심 기술 중 일부를 온라인 AI 커뮤니티 플랫폼인 허깅페이스(HuggingFace)에 오픈소스로 공개했다.

BAAI는 Emu3가 이미지 생성 모델인 스테이블디퓨전 XL(Stable Diffusion XL)과 멀티모달 모델인 LLaVA와 같은 잘 알려진 작업별 모델보다 이미지 이해 및 생성 성능이 뛰어나다고 말했다.

왕중원 BAAI 총괄은 새로운 모델을 조직의 중요한 기술적 기여로 극찬했다. 그는 "Emu3이 자율 주행 및 로봇 지능과 같은 분야에서의 잠재적인 응용 가능성이 있다"며 다재다능한 모델의 산업화와 미래 발전에 대한 잠재력을 강조했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.29 (금)

베이징 인공지능 아카데미, 멀티모달 AI 'Emu3' 공개

디지털투데이 주요 뉴스