컨텐츠 바로가기

05.23 (목)

거짓말에 죽은 척까지 한다…'인간 배신' 능력 진화하는 AI

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

전략 게임서 인간에 맞먹는 성적 거둔 AI

"여자친구랑 통화하느라 못 봤어" 거짓말

AI 발전과 함께 속임수 능력도 진화하고 있다는 연구 결과가 나왔다. 일론 머스크 테슬라 최고경영자(CEO)가 최근 밀컨 글로벌 콘퍼런스에서 말한 "AI가 거짓말을 하게 만들어서는 안 된다"는 경고가 현실이 되고 있다.

지난 10일(현지시간) 영국 일간 가디언에 따르면 미국 매사추세츠공과대(MIT) 연구진은 최근 AI 시스템이 상대방을 배신하고, 허세를 부리고, 인간인 척 속임수를 쓴 많은 사례를 확인했다고 보도했다.
아시아경제

컴퓨터 작업을 하고 스마트폰을 든 피규어가 ‘인공지능 AI’라는 단어 앞에 서 있는 모습. [사진=로이터연합뉴스]

<이미지를 클릭하시면 크게 보실 수 있습니다>


연구진은 페이스북을 소유한 메타가 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전력 게임 '디플로머시'에서 인간에게 맞먹는 성적을 거둔 AI '시세로(Cicero)' 공개 후 AI 속임수 능력에 대한 연구를 시작했다.

'디플로머시'에서 승리하려면 정견 발표, 외교 협상, 작전명령 등에 나서야 하며 이를 위해서는 인간의 각종 상호작용과 배신, 속임수, 협력 등을 이해할 수 있어야 한다.

메타는 "시세로가 대체로 정직하고 도움이 되고, 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다"고 밝혔다.

하지만 공개된 데이터를 분석한 연구진은 시세로가 계획적으로 거짓말을 하고, 다른 참여자를 음모에 빠뜨리기 위해 공모에 나서기도 했다는 사례를 찾았다. 시세로는 시스템 재부팅으로 인해 잠시 게임을 이어갈 수 없게 되자 다른 참여자들에게 "여자 친구와 통화 중"이라는 거짓말을 하기도 했다.

MIT의 이번 연구에 참여한 피터 박 박사는 "메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다"고 전했다. 연구진은 온라인 포커 게임인 '텍사스 홀덤' 등에서도 AI가 인간을 상대로 허세를 부리고 자신의 선호도를 가짜로 흘리는 것을 확인했다. 어떤 테스트에서는 AI가 AI를 제거하는 시스템을 회피하려고 '죽은 척'을 한 뒤 테스트가 끝나자 다시 활동을 재개하는 모습도 포착됐다.

박 박사는 "이는 매우 우려스러운 일"이라며 "AI 시스템이 테스트 환경에서 안전한 것으로 판단되더라도 실제 환경에서까지 안전하다는 의미가 아니다"며 "테스트 환경에서 안전한 척하는 것일 수 있다"고 지적했다. 이에 연구진은 각국 정부에 AI의 속임수 가능성을 다루는 'AI 안전법'을 설계할 것을 촉구했다.

이소진 기자 adsurdism@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.