기계적 상호해석 연구 통해 AI 작동 패턴 파악
내부 작동 원리 몰라 생기는 불가측성 해결 시도
미해결 과제 아직 많지만 공포 불식 상당한 성과
[서울=뉴시스]미 인공지능 회사 앤트로픽이 공개한 "인공지능(AI) 심리 지도"를 상징하는 그림. (출처=앤트로픽 홈페이지) 2024.5.22. *재판매 및 DB 금지 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[서울=뉴시스] 강영진 기자 = 챗GPT 등 대언어모델(LLM) 방식 인공지능(AI)의 가장 큰 문제점은 개발자를 포함해 누구도 인공지능이 어떻게 작동하는지 모른다는 점이다.
LLM AI 시스템이 기존 컴퓨터 프로그램과 다르게 인간이 직접 코드를 작성해서 만든 프로그램이 아니기 때문에 생기는 문제다.
LLM AI는 엄청난 양의 자료를 스스로 학습해 언어의 패턴과 관계를 식별한 뒤 이를 근거로 다음에 나올 단어를 예측하는 방식으로 작동한다.
그 결과 역설계를 하거나 프로그램 코드 상의 실수(버그)를 찾아내 수정하는 것이 매우 힘들다.
예컨대 “미국에서 가장 음식이 맛있는 도시는?”이라고 질문하면 “도쿄”라는 답을 내놓는데 왜 이런 오류가 발생하는지, 또는 같은 질문에 다른 답을 내놓는 지 등의 원인을 알기 어려운 것이다.
LLM AI가 인류를 위협할 수 있다는 우려의 핵심에 이 같은 불가측성이 자리하고 있다. 강력한 AI가 사람의 지시를 따르지 않고 속이기 시작하면 작동 기제를 알지 못하는 사람으로선 막을 방법이 없게 된다. 새로운 생물학 무기를 만들어낼 수도 있고 해킹 프로그램을 만들어낼 수도 있으며 정치 선전을 확산할 수도 있는 것이다.
미 뉴욕타임스(NYT)는 21일(현지시각) AI의 위협에 대한 두려움을 해결하기 위한 연구에서 일부 진전이 있다고 보도했다. 바로 “기계적 상호해석(mechanistic interpretability)”이라는 분야의 AI 연구다.
이번 주 앤트로픽이라는 AI 회사가 LLM 모델의 작동 기전을 보다 잘 이해할 수 있게 됐다며 AI가 해를 끼치지 않도록 막을 수 있을 것이라고 밝혔다. 이 회사 연구진들은 자신들의 연구 성과를 “대언어모델 심리 지도(Mapping the Mind of a Large Language Model)”라고 이름 지었다.
연구자들은 자사의 AI인 클로드 3 소네트(Claude 3 Sonnet)의 작동원리를 살펴보기 위해 “사전 학습(dictionary learning)”이라는 방식을 이용해 AI의 내부 수학연산 단위인 신경조합(combinations of neurons)이 활성화하는 약 1000만 가지의 패턴을 찾아냈다.
예컨대 클로드에게 샌프란시스코에 대해 언급하도록 요구할 때마다 활성화되는 패턴이 있고 면역학과 같은 주제나 화학 원소 리티움 등 특정과학 용어를 언급할 때 활성화되는 패턴도 있다. 속임수 또는 성차별과 같이 보다 추상적인 개념이 언급될 때 작동하는 패턴도 있다.
연구자들은 또 인위적으로 특정 패턴을 켜거나 끌 경우 AI가 다르게 작동하거나 자체 작동 원리를 무시하고 작동한다는 것도 발견했다.
예를 들어 아부라는 개념과 연관된 패턴이 보다 강하게 작동하도록 지시하면 클로드가 지나치다 싶을 정도의 최상의 아부를 늘어놓는 식이다.
대언어모델 AI에서 패턴을 찾아낸 것은 앤트로픽 연구진이 처음이다.
앤트로픽의 상호해석 연구자인 크리스 올라는 “편견, 안전 위협, 자율성에 대한 우려를 불식할 수 있는 패턴을 발견했다”고 강조했다.
그러나 올라 연구자는 AI 상호해석은 아직 문제를 완전히 해결할 수 있는 단계에 이르지 못했다고 신중한 입장을 보였다.
우선 LLM AI의 패턴이 수십억 가지에 달할 수 있는데 앤트로픽 연구자들이 찾아낸 1000만 가지의 패턴에 그친다는 점을 지적했다. 모든 패턴을 찾아내려면 아무리 자금이 풍부한 AI회사라도 감당하기 어려운 엄청난 컴퓨터 자원이 필요하다고 강조했다.
또 모든 패턴을 찾아낸다고 해도 내부 작동 과정을 이해하지 못한다는 한계가 남는다. AI 회사가 AI의 안전성을 보장할 방법이 없는 것이다.
이에 대해 올라는 “앞으로 해결해야 할 과제가 많지만 최소한 AI가 공포의 대상만은 아닐 수 있게 됐다”고 강조했다.
☞공감언론 뉴시스 yjkang1@newsis.com
▶ 네이버에서 뉴시스 구독하기
▶ K-Artprice, 유명 미술작품 가격 공개
<저작권자ⓒ 공감언론 뉴시스통신사. 무단전재-재배포 금지.>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.