인공지능(AI) 업체들이 성능이 뛰어나지만 막대한 비용이 드는 대규모 변수의 대형언어모델(LLM)과 병행해 비용이 적게 들면서도 성능이 나쁘지 않은 소형언어모델(SLM) 개발에 역량을 집중하고 있다. 메타플랫폼스의 변수가 80억개인 LLAMA3 버전 AI가 대표적인 SLM이다. AP 연합 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
마이크로소프트(MS)와 메타플랫폼스, 알파벳 산하 구글, 애플 등이 비용이 적게 드는 '소형 언어모델(SLM)' 개발에 역량을 집중하고 있다. 인공지능(AI) 대세인 '대형 언어모델(LLM)' 개발을 중단하는 것은 아니지만 비용이 적게 드는 SLM도 함께 개발하기로 한 것이다. LLM의 성장세가 주춤하자 SLM에서 새 돌파구를 찾겠다는 계획이다.
파이낸셜타임스(FT)는 18일(현지시간) 애플, MS, 메타, 구글 등이 모두 최근 변수(파라미터)는 더 적지만 여전히 강력한 성능을 갖춘 새 AI 모델, SLM 전략을 공개했다며 이같이 보도했다.
AI를 훈련하고 적절한 결과를 도출하려면 다양한 변수들이 입력돼야 한다. LLM은 그 변수가 많고, SLM은 적다. 비용으로 직결된다.
SLM은 AI 확산을 위해 이들이 내놓은 돌파구다.
기업들은 LLM을 돌리기 위해 전기비를 비롯해 막대한 비용과 컴퓨터 연산 능력이 필요하다는 점 때문에 기대와 달리 AI 구축에 적극적이지 않다.
일반적으로 입력되는 변수가 많을수록 AI의 성능이 높아지고 더 복잡하고 미묘한 임무 수행도 가능하다.
지난주 공개된 오픈AI의 최신 AI 모델인 GPT-4옴니, 구글의 제미나이 1.5프로 모두 변수가 1조개가 넘는다. 메타는 현재 오픈소스 LLAMA 모델 가운데 변수가 4000억개짜리 버전을 훈련시키고 있다.
대규모 변수가 들어가면 정확도가 높아지는 대신 막대한 비용과 함께 저작권 등 법적인 문제도 따른다.
구글 제미나이 1.5프로의 경우 100만토큰 당 단위 비용이 7달러 이상이다. 100만토큰은 100만 단어 입력 또는 출력을 나타내는 단위다.
오픈AI의 GTP-4옴니는 5달러 이상이 든다.
이보다 파라미터가 적은 GPT-3.5터보, 제미나이 1.5플래시, 메타의 LLAMA3 변수 700억개 버전, LLAMA3 변수 80억개 버전은 단위 비용이 1달러 미만이다. 특히 80억개 버전 LLAMA는 단위 비용이 20센트 수준이다.
변수가 적을 수록 단위 비용이 급격히 낮아진다.
이 때문에 메타, 구글, MS 등은 변수가 수십억개에 불과한 SLM에 노력을 집중하고 있다. 더 싸고 에너지 효율이 높으며 훈련에도 공이 덜 들면서 민감한 데이터 필요성도 적은, 적절한 성능을 갖추 AI가 돈이 더 된다는 판단을 한 것이다.
메타 글로벌 현안 부문 사장 닉 클레그는 LLAMA3의 새 모델인 변수 80억개 버전은 오픈AI의 GPT-4와 맞먹는 성능을 갖고 있다고 자신했다.
MS는 변수 70억개짜리의 파이(Phi)-3 SLM이 오픈AI의 초기 버전인 GPT-3.5보다 성능이 뛰어나다고 평가하고 있다.
SLM의 장점은 저비용 외에 휴대 기기 등 오프라인에서 처리가 가능하다는 점도 있다.
클라우드에 질문을 입력하고 답변을 내려받을 필요 없이 PC나 스마트폰이 자체적으로 구동할 수 있을 정도로 용량이 작다.
대표적으로 애플이 추진하는 AI는 아이폰에서 오프라인으로 구동이 가능하다.
dympna@fnnews.com 송경재 기자
Copyright? 파이낸셜뉴스. 무단전재 및 재배포 금지.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.