“AI가 이미지 보고 설명” 카카오 ‘허니비’ 첫 공개

헤럴드경제 원문
이영기
입력

2024.01.19 11:37

주소복사가 완료되었습니다

멀티모달 언어모델 기술 적용

혼합콘텐츠 질문 소화해 답변

카카오의 인공지능(AI)이 드디어 모습을 드러냈다. 이미지와 명령어를 입력하면 답변을 받을 수 있는 MLLM(멀티모달 언어모델) 기술이다. 기존 AI의 주 모델이었던 LLM(거대언어모델)에서 한 차원 더 진보된 기술로, 다양한 서비스 확장이 가능할 것으로 보인다.

카카오는 19일 여의도 전경련회관에서 진행된 ‘제5차 인공지능 최고위 전략대화’에서 멀티모달 언어모델 ‘허니비(Honeybee)’를 최초 공개했다. 이 기술은 카카오의 AI ‘씽크탱크’인 자회사 카카오브레인이 자체 개발한 것이다. ▶관련기사 3면

‘허니비’가 기반으로 하는 MLLM은 텍스트를 넘어 이미지도 이해할 수 있는 모델이다. 이미지와 명령어를 입력하면, 텍스트로 답변하는 식이다. 텍스트로만 입력과 출력이 가능한 LLM에서 더 나아간 형태로 평가 받고 있다.

이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문도 이해하고 답변할 수 있다. 예를 들어 허니비에 ‘농구 경기 중인 두 명의 선수’ 이미지와 함께 ‘왼쪽 선수는 몇 번 우승했나요?’라는 질문을 영어로 입력하면, 허니비는 입력된 이미지 내용과 질문을 종합적으로 이해하고 답변을 내놓을 수 있다.

카카오브레인은 AI로서 허니비 기술력을 자신했다. 특히 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등의 벤치마크(성능 실험)에서 타사 MLLM 대비 높은 성능을 달성했다고 회사 측은 언급했다. 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서는 2800점 만점 중 1977점을 받았다. 또 관련 논문 ‘허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터’은 지난해 논문 공개 사이트 ‘아카이브(arXiv)’에 게재됐다.

카카오브레인은 허니비가 향후 효과적인 교육 및 학습 보조 도구로 사용될 것으로 전망하고 있다. 카카오브레인은 자체 개발한 ‘허니비’의 소스코드를 오픈소스 공유 플랫폼 ‘깃허브(Github)’에 공개하기로 결정했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.25 (월)

“AI가 이미지 보고 설명” 카카오 ‘허니비’ 첫 공개

헤럴드경제 주요 뉴스