컨텐츠로 건너뛰기
검색
디지털투데이 언론사 이미지

애플, 멀티모달 AI 모델 '만자노' 개발…이미지 처리 기술 진화

디지털투데이
원문보기

애플, 멀티모달 AI 모델 '만자노' 개발…이미지 처리 기술 진화

속보
서울 강남구 구룡마을서 불…대응 1단계 발령
[AI리포터]

[디지털투데이 AI리포터] 애플이 이미지 이해와 생성 결합한 통합 멀티모달 모델 만자노(Manzano) 연구를 공개했다.

14일(현지시간) IT매체 나인투파이브맥에 따르면, 애플 연구진은 이미지 이해와 텍스트-이미지 생성 기능을 동시에 수행하면서 기존 모델에서 나타나는 성능과 품질 간 절충 문제를 줄인 통합 멀티모달 모델 만자노를 발표했다. 연구진은 만자노가 이해와 생성을 한 모델에서 처리할 수 있도록 설계돼, 기존 멀티모달 모델이 가지던 한계를 극복했다고 밝혔다.

기존 모델은 이미지 생성과 시각 이해를 동시에 수행할 때 상충하는 시각 표현 방식으로 인해 어느 한쪽 성능을 희생할 수밖에 없었다. 만자노는 예측된 이미지 의미 정보를 확산 디코더(diffusion decoder)에 전달해 실제 픽셀을 생성하는 구조를 통해 이해와 생성 작업을 동시에 수행할 수 있다.

연구진은 만자노를 300M에서 30B 파라미터까지 다양한 규모로 평가한 결과, 여러 벤치마크에서 기존 최첨단 모델과 비교해 경쟁력 있는 성능을 나타냈다고 전했다. 또한 코끼리 아래를 나는 새처럼 물리적으로 비직관적인 프롬프트에도 대응할 수 있으며, 스타일 전환, 인페인팅·아웃페인팅, 깊이 추정 등 다양한 이미지 편집 작업에서도 우수한 결과를 보였다.

이번 연구는 만자노의 하이브리드 토크나이저 학습, 확산 디코더 설계, 모델 확장 실험과 인간 평가 등 기술적 세부 내용을 포함하고 있으며, 애플의 이미지 생성 기술 향상과 자체 서비스 개발에 기여할 수 있을 것으로 평가된다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>