컨텐츠로 건너뛰기
검색
파이낸셜뉴스 언론사 이미지

스마일게이트 AI센터, AI 윤리성 연구 위한 혐오 발언 데이터 공개

파이낸셜뉴스 김준혁
원문보기

스마일게이트 AI센터, AI 윤리성 연구 위한 혐오 발언 데이터 공개

속보
李대통령 환율 발언에…원·달러, 장중 1470원 하회
악플 및 혐오 발언 데이터셋 구축
55만여개 데이터 대상 1만개 데이터 선별
사회적 맥락 고려 유형 세분화
"추후 다양한 분야에 활용 가능할 것"


[파이낸셜뉴스] 스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 공개한다고 20일 밝혔다. 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 1월 중 공개될 예정이다.

스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 공개한다고 20일 밝혔다. 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 1월 중 공개될 예정이다. 스마일게이트 제공.

스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 공개한다고 20일 밝혔다. 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 1월 중 공개될 예정이다. 스마일게이트 제공.


스마일게이트 AI 센터는 최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고, 사회적 문제로 이어질 수 있다는 점을 고려, 혐오 표현을 선제적으로 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다. 이번 프로젝트는 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 이뤄졌다.

악플 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 2021년 7월 1일까지 기간 동안 포털 사이트, 커뮤니티 등 다양한 웹사이트 게시글을 대상으로 수집했다. 수집 과정에서 혐오 관련 데이터 시의성과 편향성을 띄고 있는 특성을 감안, 약 55만개의 데이터를 기반으로 1만개의 데이터셋을 구축했다.

데이터셋 구축 과정에서는 △'여성/가족' △'성소수자' △'남성' △'인종/국적' △'연령' △'지역' △'종교' △'기타혐오 등 8개 대상으로 범주화했다. 혐오 발언 분류를 위한 기준 모델을 공개, 이를 통해 혐오 발언 추출이 가능하다.

스마일게이트 AI센터는 이 같은 악플·혐오 발언 데이터셋이 향후 다양한 영역에서 활용될 수 있을 것으로 기대했다. 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등의 분야에서 혐오 발언 여부를 파악할 수 있다. 향후 지속적인 연구개발(R&D)를 실시하면서 확보된 기술력을 바탕으로 혐오 표현을 보다 정확하게 찾을 수 있도록 기술을 고도화할 계획이다.

스마일게이트 AI 센터 한우진 센터장은 "AI 센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 AI가 사회에 미치는 문제에 대해 연구하고 있는 기관으로서 책임과 문제의식을 갖고 있다"며 "이번에 공개된 데이터가 혐오 표현이나 AI의 윤리성이 사전에 분류 및 예방돼 좀 더 안전하게 AI를 활용하는 데 밑거름이 되기를 바란다"고 전했다. 이어 "향후 스마일게이트 AI 센터는 그동안 진행해온 연구 결과와 노력들이 기술적인 관점에서뿐 아니라 사회에 긍정적인 기여를 할 수 있도록 다양한 노력을 시도할 것"이라고 덧붙였다.
#인공지능 #AI #스마일게이트 #악플 #혐오