26일(현지시간) 온라인 매체 기가진에 따르면 몰모는 오픈AI의 GPT-4o와 구글의 제미나이 1.5 프로와 같은 대기업의 최첨단 AI에 필적하는 성능을 가지면서도 모델의 크기는 1/10로 매우 작다.
몰모는 이미지의 시각적 이해와 대답이 가능한 멀티모달 AI로, 챗GPT와 같은 풀 서비스의 챗봇은 아니다. 그러나 다른 멀티모달 AI와 마찬가지로 다양한 일상적인 상황과 개체에 대한 질문에 대답할 수 있다.
몰모의 교육 데이터가 작지만 성능이 높은 이유는 데이터 품질이 높기 때문이다. 몰모는 저품질이나 중복 등 수십억 개의 이미지 데이터 세트가 아니라, 사람들이 음성으로 이미지에 대해 설명한 데이터를 포함한 고품질의 이미지 60만장을 추출한 데이터 세트를 사용한다.
몰모의 성능을 확인할 수 있는 데모 페이지에서 이를 시험해 볼 수 있다. 몰모는 허깅페이스에 오픈 소스로 출판됐다.
Meet Molmo: a family of open, state-of-the-art multimodal AI models.
Our best model outperforms proprietary systems, using 1000x less data.
Molmo doesn't just understand multimodal data—it acts on it, enabling rich interactions in both the physical and virtual worlds.
Try it… pic.twitter.com/kS4W1wYDPx
— Ai2 (@allen_ai) September 25, 2024<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.