생성형 AI 모델 사나(Sana) [사진: 사나 홈페이지] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 엔비디아, 미국 매사추세츠공과대학(MIT), 교토 세이카 대학 연구팀이 최대 4096×4096의 해상도의 이미지를 수 초 이내에 생성할 수 있는 이미지 생성형 AI '사나'(Sana)를 발표했다.
17일(현지시간) 온라인 매체 기가진에 따르면 이미지를 8배까지 압축할 수 있는 기존의 자동 인코더와 달리, 사나는 이미지를 최대 32배 압축할 수 있는 자동 인코더를 학습시켰다. 이를 통해 잠재적인 토큰 수를 효과적으로 줄이면서 초고해상도 화상의 생성을 실현했다.
또한, 샘플링 단계를 줄이기 위해 '플로우-DPM-솔버'(Flow-DPM-Solver)라는 구조를 도입해 샘플링 단계 수를 28~50회에서 14~20회로 줄여 효율적인 캡션 라벨링 및 선택이 가능해졌다고 한다.
그 결과, 사나는 최신 고성능 이미지 생성 AI와 비슷한 경쟁력을 갖추면서도 100배 이상 빠른 이미지 생성이 가능하다. 개발팀에 따르면, 파라미터 크기가 6억인 '사나-0.6B'는 16GB 메모리 용량의 GPU 탑재 노트북에서도 1024×1024 해상도의 이미지를 생성하는 데 1초도 채 걸리지 않는다고 한다. 사나의 소스 코드는 곧 공개될 예정이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.