19일 카카오에 따르면 허니비는 카카오브레인이 개발한 MLLM이다. 이날 오픈소스 공유 플랫폼 깃허브에 소스코드를 공개했다.
MLLM은 이미지와 명령어(프롬프트)를 입력하면 텍스트로 답변하는 모델이다. 텍스트로만 이용하는 대규모언어모델(LLM)에서 확장된 형태다.
이미지와 텍스트를 모두 입력할 수 있기에 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있다.
예를 들어 허니비에 농구 경기 중인 두 명의 선수 이미지와 함께 왼쪽 선수는 몇 번 우승했나'라는 질문을 영어로 입력하면 허니비는 이에 맞는 답을 생성해낸다.
카카오브레인 '허니비' 사용 예. 개와 고양이 이미지를 올린 뒤 두 동물의 대화를 만들어 달라고 하자 고양이가 개 등에 앉아 있는 상황에 맞춘 문장을 만들어낸다. 카카오브레인 제공 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
카카오브레인이 공개한 또 다른 허니비 이용사례를 보면, 눈 위에 개와 고양이가 있는 이미지에 대해 “두 동물의 대화를 써줘”라고 입력하면 허니비는 “이미지에서 한 고양이가 눈 속에 누워있는 개의 등에 앉아 있습니다. 특이하고 재미있는 장면이네요. 만약 고양이와 강아지가 의사소통을 한다면, 다음과 같은 대화를 나눌지도 모릅니다. 고양이: 냐옹~ 덩치 큰 친구야. 태워줘서 고마워 / 강아지: 왈왈~ 천만에, 내 친구. 네가 내 등에 있어서 너무 좋아”라고 답했다.
카카오브레인은 허니비가 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등의 벤치마크(성능 실험)에서 모델이 공개된 타사 MLLM 대비 최고 성능을 달성했다고 밝혔다. 특히 지각 능력과 인지 능력을 평가하는 ‘MME’ 벤치마크에서는 2800점 만점 중 1977점을 받았다고 전했다.
카카오브레인은 허니비가 향후 효과적인 교육 및 학습 보조 도구로 사용될 것으로 기대하고 있다.
김일두 카카오브레인 각자 대표는 “허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했다”며 “허니비를 활용한 각종 서비스 확장을 고려 중”이라고 말했다.
이진경 기자 ljin@segye.com
ⓒ 세상을 보는 눈, 세계일보
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.