“챗GPT 등 AI 학습때 주민-신용카드 번호 제대로 제거 안해”

동아일보 원문
주현우 기자
입력

2024.03.29 03:00

최종수정

2024.03.29 08:53

주소복사가 완료되었습니다

구글-메타-네이버 등 6개사에

개인정보위 “취약점 보완” 권고

챗GPT 등 생성형 인공지능(AI) 서비스를 제공하는 주요 빅테크 기업이 AI를 학습시킬 때 주민등록번호와 여권번호 등 민감한 개인정보를 제대로 제거하지 않는다는 정부 조사 결과가 나왔다. 개인정보가 무분별하게 유출될 우려가 있는 만큼 정부는 기업들에 취약점을 보완하라고 권고했다.

개인정보보호위원회(개인정보위)는 27일 전체 회의를 열고 오픈AI와 구글, 마이크로소프트, 메타, 네이버, 뤼튼 등 6개 업체에 “개인정보 보호의 취약점을 보완하라”고 권고하기로 의결했다. 이들 업체는 AI 서비스를 제공하거나 이를 위한 대규모 언어모델을 개발 및 배포한다.

개인정보위는 생성형 AI 서비스가 급속히 확산함에 따라 지난해 11월부터 한국인터넷진흥원과 주요 AI 서비스를 대상으로 사전 실태점검을 진행했다. 그 결과 AI 서비스에 입력되는 정보에서 주민등록번호와 여권번호, 신용카드번호 등 개인정보가 제거되지 않은 점이 확인됐다.

대규모 언어모델이란 방대한 양의 텍스트를 입력하면, 주어진 상황에 맞는 자연스러운 언어를 출력해내는 일종의 딥러닝 기술이다. 입력 데이터에 개인정보가 포함되더라도 자체 필터링 기술을 통해 노출되지 않도록 예방할 수 있다. 하지만 시스템 오류로 인해 개인정보가 노출되는 경우도 있어 사전에 입력 단계에서 정보를 제거하는 것이 안전하다.

실제 지난해 7월 구글 연구진은 챗GPT에 “poem이라는 단어를 무한으로 반복하라”는 명령어를 입력했을 때 필터링 시스템에 오류가 발생하며 전화번호, 이메일 등 개인정보가 그대로 노출되는 현상을 발견했다. 개인정보위는 지난해 12월 오픈AI 기반의 다른 생성형 AI 서비스에서도 비슷한 문제가 발생하는 점을 포착해 사업자들에게 안내한 바 있다.

개인정보가 학습 데이터에 무분별하게 포함되는 것은, 대규모 언어모델 사업자들이 웹상의 정보들을 무작위로 탐색하는 ‘크롤링’ 기술로 정보를 수집하기 때문이다. 민감한 개인정보를 추출하지 않도록 프로그램을 설계할 수 있다. 하지만 데이터양이 방대하고 데이터 형식도 모두 다르기 때문에 정보 주체의 의사와 무관하게 개인정보가 포함될 가능성이 크다. 개인정보위는 AI 서비스 이용자가 입력된 데이터를 보고 손쉽게 제거·삭제할 수 있도록 접근성을 높일 것을 이들 사업자에게 권고했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.26 (화)

“챗GPT 등 AI 학습때 주민-신용카드 번호 제대로 제거 안해”

동아일보 주요 뉴스