컨텐츠 바로가기

11.26 (화)

"AI 모델, 훈련 중 훨씬 많은 능력 습득…일반 프롬프트에 반응 안 해"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


인공지능(AI) 모델은 사전 훈련을 통해 알려진 것보다 많은 능력을 습득하지만, 이는 특정한 자극이 주어지기 전까지는 숨겨진 채로 유지된다는 연구 결과가 나왔다. 즉, 알고 있는 것보다 적은 부분을 출력한다는 말이다.

이머지는 24일(현지시간) 최근 AI 모델은 훈련 중 숨겨진 능력을 습득하며, 이는 특정 자극을 받아야 비로소 드러난다는 하버드대학교와 미시간대학교 연구진의 논문을 아카이브에 게재했다고 보도했다.

연구진은 확산(Diffusion) 모델을 활용한 광범위한 실험을 통해 생성 AI가 기본 개념을 어떻게 다루는지를 추적, 그 과정에서 일관된 패턴을 발견했다. 모델의 능력은 특정 단계에서 급격히 나타나며, 새로운 능력을 습득하는 순간에 명확한 전환점이 발생한다는 것이다.

특히 모델은 일반적인 프롬프트 테스트로 모델이 사물의 개념을 파악한 것으로 여겨지는 훈련 단계보다 이미 2000단계에 앞서 실제로는 개념을 마스터한 것으로 드러났다. 좀더 강력한 개념의 경우에는 6000단계까지 앞섰다.

이를 파악하기 위해 연구진은 훈련 데이터에서 아이디어가 제시하는 '개념 신호(concept signal)'를 통해 학습 속도를 측정했다. 이를 조정하자 일반적인 테스트에서 보여준 것보다 훨씬 이전에 숨겨진 역량을 드러냈다는 설명이다.

특히 '선형 잠재 개입(linear latent intervention)'과 '과잉 프롬프트(overprompting)'라는 기법을 활용해 이런 능력에 접근할 수 있었다고 전했다.

이런 '숨겨진 능력'은 AI 안전성과 평가에 중대한 영향을 미친다는 분석이다. 기존 벤치마크는 모델이 실제로 수행할 수 있는 능력을 크게 과소평가할 수 있으며, 이로 인해 유익한 능력과 우려되는 능력 모두를 간과할 위험이 있다는 말이다.

다른 사례에서 연구진은 AI 모델이 성별 표현과 얼굴 표정과 같은 복잡한 특성을 학습했지만, 이를 프롬프트를 통해 지시하기 전까지는 능력을 드러내지 않았다고 밝혔다.

예를 들어, 모델은 '미소 짓는 여성'이나 '모자를 쓴 남성'을 개별적으로 정확하게 생성할 수 있지만, 일반 프롬프트로는 두 특성을 결합하기 어려웠다.

그러나 분석을 통해 모델이 두 특성 결합을 훨씬 이전에 마스터했다는 사실을 확인할 수 있었다. 단지 기존의 순진한 프롬프트 입력(naive input prompting)으로는 능력을 끌어내기 부족했다는 설명이다.

이처럼 AI 모델은 우리 예상보다 훨씬 더 빨리 개념을 내면화하고 있지만, 그 능력을 적절히 드러내지는 않는다. 연구진은 이를 "일부 사람들이 외국어를 이해하는 데는 문제가 없지만, 유창하게 말하는 데 어려움을 겪는 상황과 비슷하다"라고 비유했다.

이머지는 이를 '양날의 검'이라고 표현했다. 모델이 생각보다 강력할 수 있다는 것은 가능성을 보여주지만, 동시에 모델을 이해하고 제어하기가 얼마나 어려운지를 증명한다는 것이다.

또 기업들은 테스트 프로토콜을 수정할 필요가 있다고 지적했다. 숨겨진 능력을 감지할 수 있는 더 정교한 평가 방법이 필요하다는 것이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.