카카오, 업데이트된 ‘Kanana-2’ 4종 오픈소스로 추가 공개 : zum 뉴스

엔비디아 A100 수준 GPU에서도 가능…중소기업·학계 부담↓
'MoE' 아키텍처로 효율 혁신…학습 단계 세분화

[사진=카카오]

[서울경제TV=박유현 인턴기자] 카카오는 자체 기술력을 기반으로 개발한 차세대 언어모델 ‘Kanana-2’를 업데이트하고, 4종의 모델을 오픈소스로 추가 공개했다고 20일 밝혔다.

이번에 공개한 4종의 모델은 실질적인 에이전틱 인공지능(AI)의 구현을 위한 도구 호출 능력을 대폭 강화한 것이 특징이다. 특히, 최신 초고가 인프라가 아닌 엔비디아 A100 수준의 범용 그래픽 처리 장치(GPU)에서도 구동되도록 최적화해 중소기업과 학계 연구자들도 비용 부담없이 고성능 AI를 활용할 수 있도록 실용성을 높였다.

Kanana-2 효율성의 핵심은 ‘전문가 혼합(Mixture of Experts, MoE)’ 아키텍처다. 전체 파라미터는 32B(320억 개) 규모로 거대 모델의 높은 지능을 유지하면서도, 실제 추론 시에는 상황에 맞는 3B(30억 개)의 파라미터만 활성화해 연산 효율을 높였다.

학습 단계도 고도화했다. 사전 학습과 사후 학습 사이에 ‘미드 트레이닝’ 단계를 신설하고, AI 모델이 새로운 정보를 배울 때 기존 지식을 잊는 치명적 망각 현상을 방지하기 위해 ‘리플레이' 기법을 도입했다.

카카오는 이러한 기술을 바탕으로 △기본(Base) 모델부터 △지시 이행(Instruct) 모델 △추론 특화(Thinking) 모델 △미드 트레이닝(Mid-training) 모델까지 총 4종의 모델을 허깅페이스에 추가로 공개했다. 연구 목적으로 활용도가 높은 미드 트레이닝 탐색용 기본 모델을 함께 제공해 오픈소스 생태계 기여도를 높였다.

김병학 카카오 카나나 성과리더는 “새로워진 Kanana-2는 ‘어떻게 하면 고가의 인프라 없이도 실용적인 에이전트 AI를 구현할 수 있을까’에 대해 치열하게 고민한 결과”라며 “보편적인 인프라 환경에서도 고효율을 내는 모델을 오픈소스로 공개함으로써, 국내 AI 연구 개발 생태계 발전에 대안이 될 수 있기를 기대한다”고 밝혔다.

한편, 카카오는 현재 MoE 구조를 기반으로 거대 스케일의 수 천억 파라미터 모델 ‘Kanana-2-155b-a17b’의 개발을 위한 학습을 진행 중이다. /flexibleu@sedaily.com

박유현 기자 flexibleu@sedaily.com

[ⓒ 서울경제TV(www.sentv.co.kr), 무단 전재 및 재배포 금지]

이 기사의 카테고리는 언론사의 분류를 따릅니다.