컨텐츠 바로가기

09.13 (금)

“이이제이” AI 부정행위 막는 AI 탐지기의 한계와 고전적인 방안

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
거의 2년 전, 챗GPT의 뛰어난 작문 능력이 교실에 뜨거운 논란을 불러일으켰다. 교사는 어떤 과제가 실제로 학생이 작성한 것인지 어떻게 확인할 수 있을까? 수많은 AI 기반 서비스가 이 질문에 답했다.

오늘날에는 AI를 이용한 부정행위를 잡아낼 수 있는 서비스가 훨씬 많아졌다. 하지만 모든 교사가 이런 서비스를 덥석 받아들인 것은 아니다. 대신 전통적인 솔루션으로 돌아가고 있다. 바로 펜과 종이이다. 휴대폰도, 노트북도, 크롬북도 사용하지 않는다. 오직 학생과 학생의 생물학적 기억만 이용한다.
ITWorld

ⓒ Bing Image Creator

<이미지를 클릭하시면 크게 보실 수 있습니다>



학생들은 이런 변화에 불만이 적지 않다. 미국 캘리포니아의 고등학교에 다니는 필자의 큰아들은 작년에 수강한 AP 세계사 과목에 대해 “손이 너무 쥐가 났다”고 불평했다. AI 때문에 모든 시험지와 과제를 손으로 써야 했기 때문이다. 중학생인 작은 아들도 과학 과목의 과제를 종이에 적어야 하고 필요한 경우에만 타이핑이 허용됐다. 교사의 입장은 확고했는데, “AI는 상당한 잠재적 이점을 제공하지만, 중학생은 이를 효과적으로 사용하는 데 필요한 성숙도나 배경 지식이 부족할 수 있다"라고 학부모에게 메모를 보냈다.

AI 탐지기의 유효성

다양한 AI 탐지 서비스가 있는데, 이들 교사가 구식 방법을 고집하는 이유는 무엇일까?

Contentatscale.ai, GPTzero.me, Winston.ai 등 많은 업체가 무료 또는 구독 방식의 AI 탐지 서비스를 제공한다. 콘텐츠를 올리면 해당 콘텐츠를 AI가 작성했는지 여부를 알려준다. 턴잇인(Turnitin) 같은 유료 사이트는 더 정교한 탐지 서비스를 제공한다. 이런 서비스는 교통 경찰의 역할을 수행하도록 설계되어 AI가 생성한 과제나 답안지를 적발해 낸다.

AI 탐지 도구가 완벽하다면 모든 것이 완벽하게 작동할 수 있다. 하지만 현실은 그렇지 않다. 많은 교사와 교수가 AI가 생성한 콘텐츠를 완전히 정확하게 감지하는 방법을 찾지 못했다고 말한다. 확실성이 부족하면, 교사가 제기하는 부정 혐의의 타당성이 약해진다. 특히, 수천 달러의 수업료가 걸려 있는 상황에서 표절 혐의는 관련된 모든 사람에게 큰 위험이다.

충분히 똑똑하지 않은 AI 탐지기

AI 탐지 도구는 처음 출발부터 좋지 않았다. 2023년, 오픈AI는 첫 번째 AI 검사기인 클래시파이어(Classifier)를 출시했다. 클래시파이어는 AI가 작성한 텍스트의 26%를 사람이 작성한 것으로 식별했으며, AI가 작성한 텍스트를 편집하거나 수정하면 속일 수 있었다. 오픈AI는 “클래시파이어는 완전히 신뢰할 수 있는 것은 아니다”라고 분명하게 밝혔다. 오픈AI는 7개월 후 “낮은 정확도로 인해” 클래시파이어를 폐기했다.

얼마 전 오픈AI는 AI 콘텐츠에 워터마킹을 하는 것과 메타데이터로 라벨을 붙이는 두 가지 방법을 잠재적인 해결책으로 제시했다. 그러나 워터마크는 콘텐츠를 재작성하는 것만으로 탐지 도구를 회피할 수 있다. 두 번째 방법인 메타데이터를 적용하는 도구는 아직 출시되지 않았다.

이런 부정확성 때문에 일부 학교에서는 AI 탐지 기능을 사용하는 것을 주저하고 있다. 미국 뉴욕 모호나센 중앙 교육구의 교육 기술 책임자인 빌 바카는 검증된 AI 탐지기를 찾지 못했다고 말한다. 바카는 “모든 것을 시도해 보았다"라고 덧붙였다.

바카는 여러 가지 문제를 지적했다. 우선 챗GPT 및 기타 AI 도구가 지속적으로 업데이트되기 때문에 AI 탐지기도 계속 업데이트해야 한다. 일부 사이트는 갑자기 사라지기도 한다. 또한 사이트 결과가 항상 신뢰를 주는 것은 아니다. 어떤 콘텐츠가 '100% AI'라고 명확히 밝히는 대신 50% 또는 25% 권고를 제공한다.

하지만 학교에서는 이런 수준의 확실성으로는 충분하지 않다. 바카에 따르면, 이런 점수는 학교의 AI 검사 사이트 사용을 정당화하기에 충분하지 않다. 바카는 “판단하기가 너무 어렵다. 그래서 생각만큼 간단하지 않다는 것을 깨달았다”고 덧붙였다.
ITWorld

AI 검사기인 Winston.ai는 이 구절의 저자에 대해 절대적으로 확실한 진술을 제공한다. 하지만 교사들은 항상 이렇게 명확하지 않다고 말한다. ⓒ PCWorld

<이미지를 클릭하시면 크게 보실 수 있습니다>



노트르담 대학교 예술 및 문과대학의 디지털 전략실 책임자인 존 베렌스도 이에 동의한다. 베렌스는 “사람들은 이런 탐지기의 통계적 기능에 대해 명확히 알아야 하며, 이런 탐지기 중 일부는 없는 것보다 더 나쁜 경우도 있다"며, “아무것도 사용하지 않는 것보다 통계적으로 더 나쁘다는 뜻이다”라고 강조했다.

또 다른 문제는 학생의 콘텐츠를 허가 없이 업로드하면, 학교의 규정이나 가족 교육 권리 및 개인정보 보호법(FERPA)과 같은 미국 연방 규정을 위반할 수 있다는 점이다.

미국 캘리포니아의 산호세 주립대학교(SJSU)는 AI 탐지 도구를 사용하지 않는다. 커뮤니케이션학과의 선임 강사인 캐롤린 페레즈 교육대학 학장인 헤더 라티머가 보낸 이메일을 인용하며, 학생의 작품을 업로드하는 것은 두 가지 대학 정책과 FERPA를 위반할 수 있다고 밝혔다. 라티머는 오탐지의 위험성에 대해서도 언급했다.

SJSU는 대학 학습 관리 시스템인 캔버스(Canvas) 내에 자체 AI 탐지 도구를 제공하며, 교수진이 이 도구에 액세스할 수 있음을 학생들에게 고지한다. 그러나 페레즈는 캔버스가 “학생들과 AI 사용에 대한 대화를 시작하기 위한 출발점으로만 사용할 수 있으며, 학생들이 AI를 사용했다는 결정적인 증거는 아니다”라고 설명했다.

노트르담 대학교의 학업 표준 사무국 책임자인 아르데아 카비지올라 루소는 대학이 존재하지 않는 출처, 수업에서 다루지 않은 내용, 고급 용어, 학생이 자신의 작업에 대해 일반적으로 토론하지 못하는 것과 같은 “적신호”를 찾는다고 말했다.

루소는 “AI 탐지기와 관련해 작년에 턴잇인의 AI 탐지기를 사용할 수 있었지만, 오탐지에 대한 우려로 사용하지 않기로 했다”고 밝혔다. 또 “일반적으로 AI 탐지 도구에 대해 충분히 알지 못해 책임감 있게 사용할 수 없다고 생각했다. 현재 교수가 어떤 이유로든 학생의 작업이 의심스러운 경우 사용하는 탐지기를 구독하고 있지만, 100%의 가능성만으로는 고발하기에 충분하지 않다”고 덧붙였다.

턴잇인도 이에 동의했다. 턴잇인은 발표문을 통해 “학생의 글쓰기 스타일과 교육적 배경을 아는 것을 대신할 수 있는 것은 없다는 것이 턴잇인의 지침”이라고 밝혔다. 또 “턴잇인의 AI 작문 탐지 기능과 같은 도구는 결정자가 아닌 자원이다. 교육자는 항상 사용 가능한 모든 정보를 바탕으로 최종 결정을 내려야 한다”고 강조했다.

AI 검사기의 실질적인 효과

일부 AI 감지 서비스는 제대로 작동한다. 필자는 로지텍의 '영원한 마우스'라는 개념에 대해 쓴 사설의 텍스트를 캡션과 부제목을 제거한 후 기본 검사를 무료로 제공하는 여러 AI 탐지 서비스에 입력했다. 11개 서비스 중 하나를 제외한 모든 서비스가 해당 콘텐츠를 사람이 작성한 것으로 식별했으며, AI에 의해 생성되었을 확률은 10% 미만이었다. 예외도 있는데, 같은 콘텐츠에 대해 한 서비스는 AI가 작성했을 확률이 93%라고 판별했다.

그런 다음 프랑스 혁명이 세계 정치에 미친 영향에 대한 5단락의 에세이를 챗GPT에 요청했다. 이 글이 사람이 작성했을 확률이 71%라고 답한 Writer.com을 제외한 모든 서비스가 이 콘텐츠를 AI가 작성한 것으로 확인했다.

일부 서비스는 이런 격차를 줄이기 위해 노력하고 있다. 예를 들어, 그래멀리(Grammarly)의 새로운 오써십(Authorship) 서비스는 학생이 각각의 요소를 결합할 수 있다는 생각으로 어떤 단어가 원본이고, 어떤 단어가 AI가 생성한 것이며, 어떤 단어가 AI가 편집한 것인지를 식별하려고 시도한다.

AI를 감지하는 더 좋은 방법 : 학생과 함께 작업하기

교사들은 학생이 AI를 사용해 부정행위를 하는지 알아내는 가장 좋은 방법은 학생과 학생의 과제를 이해하는 것이라고 말한다. 그리고 의심스러우면 학생에게 이를 증명하도록 요청한다.

바카는 “간단한 해결책은 종이 한 장을 꺼내서 이 문제를 어떻게 풀고 있는지 보여 달라고 요청하는 것이다”라며, “이 방법으로 많은 학생이 부정행위를 하지 않게 됐다. 학생들은 답을 흐리게 쓰는 등의 편법을 시도했지만, 여전히 정확한 답이 아니라는 것을 쉽게 알아챌 수 있다"라고 설명했다.

페레즈도 이에 동의하며, “교실에서 AI의 비윤리적인 사용에 대한 우려가 있을 때 우리는 조사를 철저히 해야 한다"라고 강조했다. 페레즈는 “첫째, 학생 개개인의 글쓰기에 대해 잘 알고 있어야 한다. 둘째, AI가 생성한 자료와 학생이 처음 작성한 글을 비교해 문법, 문장 구조, 작문 스타일이 학생의 글과 일치하는지 확인해야 한다. 셋째, 학생과 직접 대면하거나 이메일을 통해 대화를 나누면서 학생의 의견을 들어야 한다”고 설명했다.
ITWorld

그래멀리가 새로 출시한 개선된 AI 탐지 기능 ⓒ Grammarly

<이미지를 클릭하시면 크게 보실 수 있습니다>



페레즈는 한 학생의 논문을 읽은 적이 있는데, AI 탐지 도구가 AI가 생성한 콘텐츠일 확률이 90%라고 판별했다. 실제로 논문은 “매우 기계적으로” 보였다. 페레즈는 학생에게 이메일을 보내 설명을 요청했지만, 학생은 AI 사용을 부인했다. 이에 페레즈는 영상으로 후속 조치를 취했다.

페레즈는 “영상 통화 중에 학생에게 논문 내용에 대해 이야기해 달라고 요청했는데, 논문이나 강의 내용에 대해 이야기하지 못해 AI 감지가 옳았다는 것을 증명했다"라며, “학생에게 자신의 말로 논문을 다시 작성하도록 요청했고, 추가 제재를 위해 대학에 보고했다”고 밝혔다.

교사들은 적대적인 역할을 좋아하지 않으며, 자신이 가장 잘하는 일인 가르치는 일에 집중하고 싶어 한다. 노트르담 대학교의 부교수인 나다니엘 마이어스는 “학생들이 편안하게 느낄 수 있는 공간을 만들어 이런 문제를 함께 고민할 수 있도록 하고 싶다”고 말했다. SJSU의 페레즈는 학교의 AI 활용을 다루는 페이스북 그룹에 참여한 많은 교수가 정신 건강 문제를 보고했으며, 교실에서 비윤리적인 AI가 너무 많이 사용되어 직업 만족도가 더욱 낮아지고 사기가 떨어진다고 말했다.

하지만 이런 부담은 교사와 학생 모두에게 있으며, 양쪽 모두 부담을 덜기 위해 AI를 활용하고 있다. 노트르담의 컴퓨터 과학 및 공학 교수인 니테시 차울라는 “지금 하고자 하는 것은 AI 대 AI의 대결이다”라고 지적했다. 차울라는 “한 AI는 콘텐츠를 제작하고 있다. 다른 AI는 다른 AI가 해당 콘텐츠를 만들었는지 감지하려고 한다. 두 AI를 싸움 붙이고 있다. 이게 무슨 짓인지 모르겠다”라고 덧붙였다.
editor@itworld.co.kr

Mark Hachman editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.