<이미지를 클릭하시면 크게 보실 수 있습니다> |
하루에도 몇 번씩 울리는 스팸 전화, 누군지 모르는 번호로 온 광고 유도 문자를 볼 때면 갖고 있던 휴대폰을 던져버리고 싶은 마음이 굴뚝같은 게 요즘 현실이다. 여기에 인터넷을 타고 범람하는 각종 음란물과 가짜인지 진짜인지 판별하기조차 어려운 딥페이크 영상까지 난무하는 온라인 세상은 그야말로 대혼돈의 시대다.
텍스트부터 이미지, 영상 등 정보가 넘쳐나는 시기에 유해 정보를 추적하고 차단하는 '인공지능(AI) 필터링' 기술이 주목받고 있다. 오픈AI의 챗GPT(챗봇)나 달리(이미지 생성 모델) 등과 같은 생성형 AI 서비스로 콘텐츠를 생산해내는 것이 보다 쉬워진 만큼, 그 안에선 시장 생태계 성장을 저해하는 불법적인 요소를 차단하려는 움직임이 눈에 띈다.
대표적인 곳이 네이버웹툰이다.
네이버웹툰은 유해 콘텐츠를 자동으로 걸러내기 위한 AI 필터링 솔루션인 '엑스파이더(Xpider)'를 독자 개발해 현재 주요 서비스에 활용하고 있다. 엑스파이더는 주로 연령 인증 없이도 누구나 웹툰 작품을 올릴 수 있는 UGC(사용자 생성 콘텐츠) 공간에서 음란물에 속하는 장면이나 문구, 욕설 등 유해한 내용을 원천 차단하기 위해 만들어졌다.
최근 경기 판교 네이버웹툰 오피스에서 만난 이 회사 'AI프로텍션' 팀은 "엑스파이더로 걸러지는 유해물을 모니터링해 보면, 상상조차 하기 힘든 기괴한 형태의 음란물이나 폭력 수위가 과도하게 느껴지는 웹툰 콘텐츠가 의외로 많아 놀랄 때가 많다"고 입을 모았다.
실제로 기자가 엑스파이더를 통해 필터링된 웹툰의 주요 장면을 살펴보니 만 19세 이상 성인조차 접하는 것이 과연 맞는지 의문이 들 정도로 유해한 콘텐츠들이 보였다. 남승훈 네이버웹툰 AI프로텍션 팀 리드는 "국내외 창작자 누구나 작품을 올릴 수 있는 공간일수록 유해 콘텐츠 검수의 필요성이 높아지고 있다"며 "작품 수가 많아지면서 사람이 하나하나 살펴보고 판별하는 데 한계가 있다는 점에서 AI로 자동 필터링할 수 있는 솔루션을 개발하게 됐다"고 전했다.
구체적으로 네이버웹툰의 '엑스파이더 포 이미지(Xpider for Image)'는 웹툰 장면 속에서 유해 콘텐츠를 스크리닝하는 기술이다. 2020년 9월 연구를 시작해 2021년 8월부터 네이버웹툰의 글로벌 아마추어 창작 공간인 '캔버스(Canvas)'에 적용 중이다. UGC 커뮤니티인 '캔버스 커뮤니티(Canvas Community)'와 실사 이미지를 웹툰 화풍으로 바꿔주는 '툰필터(ToonFilter)'에도 탑재돼 있다.
엑스파이더 포 이미지는 크게 노출 상태(Nudity)와 폭력성(Violence), 비매너적인 발언(Toxic Dialogue)으로 구분해 AI가 콘텐츠 속 캐릭터의 움직임이나 모습을 탐지해 유해 정도를 판단한 뒤 척도별 결과 값을 산출해낸다. 가령 노출 상태 점수(Nudity Score)가 0.9926인 장면은 0.0221인 장면보다 음란물에 속할 확률이 높은 콘텐츠로 분류된다.
남 리드는 "기존 딥러닝 모델은 대부분 실제 이미지를 탐지하는 데 최적화돼 있어 웹툰에 적용했을 때에는 정확도나 활용도 측면에서 크게 떨어지는 한계가 있다"면서 "상대적으로 엑스파이더는 웹툰 도메인에 특화해 만든 모델이라 탐지율이 높다"고 전했다.
다만 유해 여부를 최종 판단하는 것은 인간이다. 엑스파이더가 1차적으로 전수조사를 통해 콘텐츠별 유해 정도를 숫자로 계량화해 도출하면, 콘텐츠 모더레이터인 인간이 AI가 유해하다고 판단한 순서대로 웹툰 콘텐츠를 모니터링하는 식이다. 여기서 모더레이터의 피드백을 받은 AI는 다시 이 기준에 맞춰 작동될 수 있도록 성능이 개선되는 과정을 반복한다.
남 리드는 "선정적이라는 것이 확실한 것도 있지만 모호한 부분도 있기 때문에 그 기준을 정하는 데 있어 아직은 인간의 역할이 큰 측면이 있다"면서도 "다만 궁극적으로는 검수 완전 자동화를 목표로 하고 있기에 피드백 과정에서 연구개발을 꾸준히 진행하고 있다"고 강조했다.
이 AI 필터링 기술이 서비스에 적용되면서 검수 효율도 높아졌다. 네이버웹툰에 따르면 엑스파이더 도입 전 대비 검수 효율은 209%로 증가했다. 이는 초기 필터링 모델인 '툰세이퍼'의 42%보다 월등히 높은 수준이다.
그는 "엑스파이더 폭력성 지표에선 캐릭터뿐만 아니라 전체 장면을 AI가 이해할 수 있도록 모델을 고도화하고 있고, 인종차별적인 발언이나 수위가 높은 발언 등 이미지 속 텍스트를 판별하는 기술도 함께 연구하고 있다"고 전했다. 두 지표 역시 연내 내부 테스트 과정을 거쳐 조만간 네이버웹툰 주요 서비스에 탑재될 예정이다. 네이버웹툰은 또 텍스트 속 유해 문장을 스크리닝할 수 있는 AI 기술인 '엑스파이더 포 텍스트(Xpider for Text)'도 연구개발하고 있다. 이 기술은 댓글이나 게시글, 대사 등 텍스트 속 내용 검수가 필요한 영역에 탑재될 계획이다.
이외에도 네이버웹툰은 콘텐츠의 저작권 보호 차원에서 자체적으로 '툰레이더(Toon Radar)' 기술을 개발해 2017년부터 국내외 불법 복제물 추적에 활용하고 있다.
툰레이더는 웹툰 이미지에 보이지 않는 사용자 식별 정보를 삽입해 최초 불법 유출자를 구분해내고 차단하는 기술로, 2018년엔 이미지를 추적하기 위한 컴퓨터 비전 능력까지 갖춘 AI 솔루션(툰레이더 AI)으로 업그레이드됐다.
그 결과 웹툰 유료 회차가 불법 공유 사이트에 올라가는 시간이 툰레이더 도입 전 만 하루꼴에서 지금은 평균 3~4주까지 지연시키는 효과가 나타나고 있다고 회사는 강조했다.
'미리 보기' 기능으로 제공되는 최신 유료 회차는 시간이 지나면 무료로 전환되기 때문에 불법으로 공유되는 시점을 최대한 늦추는 것이 피해를 줄이는 핵심 요건이다. 이를 통해 툰레이더가 주요 웹툰 작품의 불법 유통을 지연시켜 보호한 저작물의 권리를 경제적 가치로 환산하면 연간 최소 2000억원에 이를 것으로 네이버웹툰은 추산하고 있다.
[고민서 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.