컨텐츠 바로가기
68141182 1322021051468141182 08 0801001 itscience 7.0.0-HOTFIX 132 AI타임스 0 false true false false 1620980858000

'이루다 논란' 스캐터랩, 문제된 데이터 수집 경로 미공개했다...데이터수집공개 의무화해야 하나?

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
AI타임스

(사진=임채린 기자)

<이미지를 클릭하시면 크게 보실 수 있습니다>


(사진=임채린 기자)최근 정부로부터 개인정보보호법 위법 판정을 받은 인공지능(AI) 챗봇 이루다 개발사 스캐터랩이 다수 AI 개발자 행사에서 정보 수집 경로를 밝히지 않은 것으로 밝혀졌다.

카카오톡과 라인 데이터를 활용한다고는 언급했으나, 연애의 과학을 통한 수집 절차는 공개하지 않았다.

개발 초기 대규모 투자금을 받기 전인 2018년까지는 분명히 밝혔으나 이후 2019년 부터 일부 행사에서 해당 사항을 발표하지 않았다.

제2의 이루다 사건을 만들지 않기 위해서는 AI 업계서 기술 발표 시 자세한 정보 수집 방식을 공개하도록 의무화하는 규정을 마련해야 한다는 전문가 주장이 나왔다.

오요한 렌슬리어공대 과학기술학과 박사과정 연구원은 14일 'AI의 편향과 챗봇의 일탈' 학술행사에서 이루다 출시 직전 스캐터랩이 데이터 수집 방법을 제대로 공개하지 않은 점을 지적했다.

'AI의 편향과 챗봇의 일탈' 학술행사는 한국포스트휴먼학회와 경남대 인공지능 편향성 최적화 연구단 주최로 온라인 개최됐다.

오요한 연구원에 따르면 스캐터랩은 2019년부터 2020년까지 참여한 개발자 대상 AI 기술 공유 행사 최소 3곳에서 연애의과학 사용자 대화 데이터를 이루다 AI 학습에 사용했다고 언급하지 않았다.

스캐터랩이 해당 내용을 언급하지 않은 행사는 2020년과 2019년 각각 열린 네이버 데뷰(Naver Deview), 2019년 8월 열린 파이콘(PyCon)이다.

특히 파이콘에서 스캐터랩은 연애의과학 데이터 활용에 대해 언급하지 않았을 뿐만 아니라 현재 위법 판결이 난 내용을 주장했다.

해당 행사에서 김종윤 스캐터랩 대표가 발표한 내용 중에는 "모든 데이터는 사용자의 동의를 받고 사용자에게 직접 제공받았으며, 개인정보 식별이 불가능한 데이터만 연구개발 목적으로만 사용되고 있습니다"라는 문구가 포함됐다.

이에 대해 오 연구원은 "특히 연구개발 목적으로'만' 사용하고 있다는 내용은 지적받을 만하다"고 비판했다.

AI타임스

2019년 네이버 데뷰 행사 중 스캐터랩이 발표한 내용(이미지=행사 캡처)

<이미지를 클릭하시면 크게 보실 수 있습니다>


2019년 네이버 데뷰 행사 중 스캐터랩이 발표한 내용(이미지=행사 캡처)2번의 네이버 데뷰 행사에서도 한국어 카카오톡 데이터 100억건을 사용하고 있다고 언급하면서 수집방식에 대해서는 함구했다. 특히 2020년 네이버 데뷰에서는 "데이터셋에서 독점적인 우위를 보유하고 있다"고 강조했다.

반면, 서비스 개발 초기인 2016년에서 2018년 동안에는 데이터 출처를 숨기지 않고 꾸준히 언급했다는 주장이다.

이루다에 대규모 투자를 한 투자자들은 연애의과학 데이터를 사용하는 것을 인지했을 것으로 추정된다. 반면 자세한 데이터 동의 절차나 비식별 과정을 알 수 없었을 것이라는 설명이다.

스캐터랩은 2018년 4월 시리즈B 규모의 50억원 투자를 유치했다. 연애의과학 데이터 활용 사실을 언급하지 않기 시작한 것은 2019년부터다.

오요한 연구원은 "2018년 투자 가치로 스캐터랩은 '연애의과학을 통해 수집한 다국어 데이터에 기반해 일상대화 AI를 개발하는 핑퐁팀이 향후 경쟁력 있는 챗봇 모델을 만들겠다'는 비전과 프로토타입을 제공했다. 당시 투자자들이 연애의과학 활용 계획을 알고 있었겠지만 자세한 데이터 수집 과정은 몰랐을 것"이라고 말했다.

◆연애의과학, 원래 챗봇 데이터 모으기 위한 채널이었다

스캐터랩이 연애의과학 데이터로 이루다 개발 계획을 세운 것은 연애의과학 개발 시기부터인 것으로 추정된다. 연애의과학 서비스 기획 목적부터 챗봇 개발을 위한 데이터 수집이라는 분석이다.

오 연구원은 "연애의과학 출시 4개월 후인 2016년 10월 스캐터랩이 최초로 각종 매체를 통해 대화형 챗봇을 개발하겠다고 발표했다. 김종윤 대표가 인터뷰에서 밝힌 내용 중에서도 '연애의과학은 데이터 서비스 채널'이라는 내용이 있다"고 설명했다.

이루다 개발 전 스캐터랩이 개발한 AI 챗봇들의 성격을 고려했을 때 이루다 서비스 목적이 연애 시뮬레이션일 가능성도 배제할 수 없다는 주장이다.

그는 "이루다 전 비트윈 데이터를 기반으로 스캐터랩이 개발한 진저는 연애 비서, 데이터 코칭이 주요 서비스였다. 기업 측에서 사용자가 연애 대화 대상이라고 언급하기도 했다"고 말했다.

이어 "진저 서비스 예시를 보면 상대에게 애교를 부리고 꼭 챙겨주려고 하고 감정적 페르소나가 분명하다"고 강조했다.

AI타임스

스캐터랩이 연인 대상 SNS 서비스 비트윈 데이터로 만든 챗봇 진저 서비스 예시(이미지=행사 캡처)

<이미지를 클릭하시면 크게 보실 수 있습니다>


스캐터랩이 연인 대상 SNS 서비스 비트윈 데이터로 만든 챗봇 진저 서비스 예시(이미지=행사 캡처)진저 이후에도 스캐터랩은 2019년 SM 엔터테인먼트가 주최한 '음악 인공지능을 켜다' 행사에서 아이돌 챗봇을 선보인 바 있다.

오요한 연구원은 "여성 아이돌 멤버 챗봇을 만들어 공개하기도 했다. 이 때 활용한 기술을 이루다 개발에 사용했을 수도 있다"고 말했다.

◆AI 학계서 데이터 수집 경로 의무화 규정 만들어야

제2의 이루다 사태가 발생하지 않으려면 AI 학계에서 연구성과 발표 시 데이터 취득 경로를 자세히 공개하는 것을 의무화해야 한다는 주장이다.

오요한 연구원은 "AI 연구개발 공유 컨퍼런스나 워크샵에서 각 발표자가 연구성과를 발표할 때 사용 데이터셋 출저와 취득 경로, 해당 데이터가 다루고 있는 사람들 혹은 사물들(data subjects)에 대한 자세한 통계를 설명해야 한다. 행사 조직위원회에서 이를 강력히 요청, 권고할 필요가 있다"고 강조했다.

사건 발생 후 처벌하기보다 연구계에서 문제를 사전 방지하는 것이 효과적이라는 의미다. 오 연구원은 "스캐터랩이 초기 개발 당시에는 데이터 활용 방식을 공개한 만큼, 사건이 터지기 전 해당 내용을 알고 있었던 개발자들도 많았을 것"이라고 말했다.

이어 "같은 스타트업이라고 감싸주기보다는 앞으로 건강한 연구생태계를 만들어가는 것이 좋다고 본다"고 전했다.

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]과기정통부, '신뢰할 수 있는 AI' 실현 전략 발표...2025년까지 단계적 추진

[관련기사]개인정보위, AI챗봇 '이루다' 만든 스캐터랩에 총 1억 330만원 과징금·과태료 부과

Copyright ⓒ '인공지능 전문미디어' AI타임스 (http://aitimes.com)
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.