컨텐츠 바로가기

11.29 (금)

이슈 인공지능 시대가 열린다

베이징 인공지능 아카데미, 멀티모달 AI 'Emu3' 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[AI리포터]
디지털투데이

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털투데이 AI리포터] 중국 베이징 인공지능 아카데미(BAAI)가 텍스트, 이미지 및 비디오 등 다양한 형태의 데이터를 이해하는 인공지능(AI) 모델 'Emu3'을 소개했다.

21일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)에 따르면 이는 중국 기업들이 멀티 모달 모델 분야에서 중요한 이정표를 세운 것으로, 미국 선도 기업들과의 격차를 줄이기 위한 중국의 노력의 일환으로 볼 수 있다.

BAAI의 최신 모델인 Emu3은 이미지를 이해하고 비디오 클립을 생성하는 데 사용되는 간소화된 구조적 설계를 채택했다. 한 가지 유형의 입력만 처리하는 기존 모델과 달리, Emu3은 텍스트, 비디오 및 오디오와 같은 다양한 유형의 데이터를 이해할 수 있도록 설계되었다.

Emu3은 텍스트, 이미지 및 비디오 클립을 일관된 토큰 세트로 처리하는 통합된 AI 아키텍처를 활용하여 과업별 모델의 필요성을 제거하고 훈련 과정을 간소화한다. BAAI는 Emu3의 기술 논문을 공개하고, 모델의 핵심 기술 중 일부를 온라인 AI 커뮤니티 플랫폼인 허깅페이스(HuggingFace)에 오픈소스로 공개했다.

BAAI는 Emu3가 이미지 생성 모델인 스테이블디퓨전 XL(Stable Diffusion XL)과 멀티모달 모델인 LLaVA와 같은 잘 알려진 작업별 모델보다 이미지 이해 및 생성 성능이 뛰어나다고 말했다.

왕중원 BAAI 총괄은 새로운 모델을 조직의 중요한 기술적 기여로 극찬했다. 그는 "Emu3이 자율 주행 및 로봇 지능과 같은 분야에서의 잠재적인 응용 가능성이 있다"며 다재다능한 모델의 산업화와 미래 발전에 대한 잠재력을 강조했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.