앤스로픽, LLM 클로드3 출시
추론·수학 등에서 GPT-4 제쳐
바늘 찾기 테스트 정확도 99%
다리오 아모데이 앤스로픽 최고경영자(CEO)가 차세대 대규모언어모델(LLM) '클로드3'를 내놓으며 한 말입니다. 클로드3가 현존 최강 모델인 오픈AI의 GPT-4를 넘어섰다는 평가도 나오는데요. 과연 클로드3는 어떤 LLM일까요.
[이미지=앤스로픽 홈페이지] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
클로드3는 성능과 속도에 따라 '오푸스', '소네트', '하이쿠'로 나뉩니다. 이 중 가장 지능적인 오푸스는 '대규모 멀티태스크 언어이해(MMLU)' 테스트에서 GPT-4를 0.3%p 차이로 제쳤죠. MMLU는 추론, 수학, 역사 등 50여개 주제에서 지식과 문제 해결 능력을 평가하는 테스트입니다. 이 외에 대학원 수준의 전문 추론, 기초 수학 등 AI 성능 테스트에서 GPT-4를 능가했다고 하네요.
긴 글을 처리하는 능력도 돋보여요. 단어 15만개 분량을 한 번에 처리할 수 있는데요. '해리포터와 죽음의 성물' 책 한 권을 한 번에 분석해 요약할 수 있는 수준입니다. 방대한 데이터에서 정보를 정확하게 기억하는 능력은 거의 완벽에 가깝습니다. 이른바 '건초더미에서 바늘 찾기' 평가에서 99%의 정확도를 기록했다고 하네요.
LLM 성능 비교 결과 [이미지=앤스로픽 홈페이지] |
바늘 찾기 평가에서 클로드3가 자신을 테스트하고 있다는 사실을 알아차렸다는 사례까지 나왔습니다. 회사 업무와 프로그래밍 작업에 대한 방대한 데이터 사이에 피자 토핑 재료에 대한 문장 하나를 끼워놓고 이를 찾아보라고 하자 클로드3는 '바늘'을 찾아냈죠. 뿐만 아니라 자신을 인위적으로 테스트하기 위한 문장이라는 점도 알아챘다고 하네요.
무엇보다 앤스로픽이 내세우는 경쟁력은 안전과 신뢰입니다. 클로드3는 사진이나 이미지를 보고 답변을 하는 멀티모달 능력을 갖췄지만 오픈AI의 '소라' 같은 이미지 생성 기능은 없는데요. 기업 수요가 크지 않다는 점을 내세웠지만 신뢰도를 고려한 걸로 보입니다. 최근 구글 제미나이의 이미지 생성 오류, 챗GPT의 저작권 침해 등 AI 모델의 윤리적 문제가 화두가 됐죠.
사실 앤스로픽은 설립 초기부터 안전한 AI를 강조했어요. 오픈AI 창립 멤버였던 아모데이 남매가 회사를 떠나 만든 회사인 건 유명하죠. 오픈AI가 점점 영리화 방향으로 가자 의견 충돌로 회사를 떠난 것으로 알려졌습니다.
영리와 비영리 사이에서 흔들리는 오픈AI를 의식한 듯 지배구조도 독특합니다. 일단 기업 자체를 공익법인으로 설립했어요. 인류의 장기적인 이익을 위해 책임감 있게 AI를 개발한다는 게 회사의 목표죠. 심지어 회사 수익과 상관없는 전문가 조직이 앤스로픽을 지배하는 구조입니다. 이들은 팔 수도 없고 배당금도 없는 주식 '클래스 T'를 보유하는 유일한 조직인데요. 회사 수익에서 얻을 게 별로 없지만 이사회를 선출·해임할 수 있는 막강한 권한을 갖죠. 위험한 AI를 방지하기 위한 일종의 '킬 스위치(kill switch)'를 둔 거라 볼 수 있습니다.
최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.