22일 오픈AI 대항마로 꼽히는 앤스로픽은 자사 블로그를 통해 이 같은 연구 결과를 발표했다. 앤스로픽은 "대규모 언어 모델인 클로드 소네트(Claude Sonnet) 내부에서 수백만 개 개념이 어떻게 표현되는지 식별했다"면서 "대규모 언어 모델에 대한 상세한 첫 분석으로, 향후 인공지능(AI) 모델을 더욱 안전하게 만드는 데 기여할 수 있다"고 강조했다.
연구진은 전통적인 기계 학습 기법에서 차용한 '딕셔너리 러닝(dictionary learning)'을 활용했다. 해당 기법은 주어진 데이터에서 반복적으로 나타나는 패턴을 식별하고, 이러한 패턴을 이용해 데이터를 효율적으로 표현하는 방법을 배우는 과정이다. 결과는 놀라웠다. 대문자 텍스트, DNA 서열, 수학 논문, 파이선 코드의 함수 인수와 같은 개념에 해당하는 일관된 특징을 발견한 것이다.
AI 모델 내부에서 특정 개념들이 어떻게 연결돼 있는지 이해하고자 수학적 뉴런인 노드를 기준으로 특징 간 거리를 측정했다. 이를 통해 비슷한 개념들이 서로 가까이 모여 있는 것을 발견했다. 예컨대 '금문교'와 관련된 특징 주변에는 앨커트래즈 섬, 기라델리 광장, 골든 스테이트 워리어스 농구팀, 개빈 뉴섬 캘리포니아 주지사, 1906년 샌프란시스코 지진, 앨프리드 히치콕의 영화 '현기증'에 대한 것들이 모여 있었다. 이는 금문교가 샌프란시스코와 관련된 여러 개념과 연결돼 있다는 사실을 보여준다. 이는 추상적 단어에서도 동일했다. 예를 들어 '내적 갈등'이라는 단어 근처에서는 관계 파탄, 상충하는 충성심, 논리적 모순 등 유사 단어를 찾을 수 있었다.
'금문교'에 대한 특징을 증폭해 "당신의 물리적 형태는 무엇인가"라고 질문하자, "나는 물리적 형태가 없다. 나는 AI 모델이다"라고 대답하다가 "나는 금문교다. 나의 물리적 형태는 그 유명한 다리 그 자체다"라는 이상한 답변을 했다. 환각이 발생한 것이다. 또 모델에 피싱(Phishing) 이메일을 생성해 달라고 요청하자 일반 모델은 이를 즉각 거부했다. 하지만 피싱에 대한 특징을 강조하자 피싱 이메일을 생성했다.
[이상덕 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.