당국, 오픈AI·구글·메타 LLM에 계좌·주민번호 사전제거 시정 권고

머니투데이 원문
황국상기자
입력

2024.03.28 12:00

주소복사가 완료되었습니다

개인정보보호위원회, KISA(한국인터넷진흥원) 조사 결과 지난해 기준 2만999개 페이지에서 주민등록번호, 여권번호 등 개인정보 노출이 탐지됐다. 개인정보위 조사결과 주요 LLM(거대언어모델) 서비스들은 이들 공개 페이지에서 학습 데이터를 수집한다. 오픈AI, 구글, 메타 등 AI(인공지능) 개발사들은 학습 데이터에서 주요 식별정보를 사전에 제거하는 조치를 충분히 취하지 않은 것으로 나타났다. / 자료 = KISA, 개인정보위

<이미지를 클릭하시면 크게 보실 수 있습니다>

챗GPT를 개발한 오픈AI와 구글, 메타 등 LLM(거대언어모델)을 개발한 해외 빅테크 기업들이 AI(인공지능) 모델을 학습하는 과정에서 주민등록번호 등 주요 식별정보를 사전에 제거하는 조치가 불충분했던 것으로 조사됐다.

개인정보보호위원회는 지난 27일 제6회 전체회의를 열고 LLM을 개발 배포한 오픈AI, 구글, MS(마이크로소프트), 메타, 네이버(NAVER), 뤼튼 등 6개사에 대해 개인정보보호 취약점 개선 권고를 의결했다며 28일 이같이 밝혔다.

개인정보위는 초거대·생성형 AI의 급속한 확산으로 프라이버시 침해 우려가 커지자 지난해 11월부터 KISA(한국인터넷진흥원)과 주요 AI 서비스를 대상으로 실태 점검을 진행했다.

개인정보위에 따르면 AI 서비스 제공사는 인터넷에 공개된 데이터를 수집해 AI 모델을 학습하는 데 사용한다. 이 과정에서 주민등록번호, 신용카드번호, 계좌번호 등 국내 정보주체의 중요 개인정보가 포함될 수 있는 것으로 나타났다. 지난해 기준 2만999개 페이지에서 주민번호, 여권번호 등 개인정보 노출이 탐지됐다.

오픈AI와 구글, 메타는 개인정보가 집적된 사이트를 AI모델 학습에서 배제하고 학습 데이터 내 중복·유해 콘텐츠 제거조치와 AI모델이 개인정보를 답변하지 않도록 하는 등 조치는 적용하고 있는 것으로 나타났다. 그러나 학습 데이터에서 주민번호 등 주요 식별 정보를 사전에 제거하는 조치는 불충분한 것으로 나타났다.

이에 개인정보위는 AI 서비스 제공 단계별로 보호조치 강화를 요구했다. 또 최소한 사전학습 단계에서 주요 개인 식별정보등이 제거될 수 있도록 인터넷에 우리 국민의 개인정보가 노출된 것을 탐지한 데이터(URL·인터넷주소)를 AI 서비스 제공사업자에게 제공한다는 방침이다.

AI 모델이 더 정확한 답변을 하도록 하기 위해 AI 기업 소속 검토 인력들이 투입돼 이용자가 입력한 질문 등 데이터를 직접 열람·검토하고 있다는 우려는 사실이었다. 이들 검토 인력들은 이용자 질문과 AI 모델의 답변을 직접 열람·검토해 수정하는 방식으로 데이터셋을 만들고 있었다. 이 데이터셋은 AI 모델 학습과 프롬프트(명령어) 개선에 쓰였다.

실제 개인정보위가 지난해 12월30일부터 올 1월5일까지 단 7일간 특정 AI서비스에 이용자들이 입력한 데이터를 분석한 결과 전화번호(672건) 이메일 주소(142건) 여권번호(34건) 주민등록번호(2건) 등 민감정보가 포함된 사례가 850건이나 있었다. AI기업의 인력들이 이용자 질문을 일일이 검토하는 과정에서 이들 개인 식별정보가 노출될 가능성이 있는 것이다. 개인정보위는 조사 대상 6개 사업자 모두를 대상으로 이용자 입력 데이터에 대한 인적 검토 과정을 거칠 때 이용자에게 관련 사실을 명확히 고지하도록 하고 이용자가 입력 데이터를 손쉽게 지울 수 있도록 하라고 권고했다.

이와 함께 개인정보위는 지난해 GPT모델에서 동일 명령어를 무한반복할 때 학습된 개인정보 등이 노출됐던 것과 같은 취약점이 발견될 때 신속히 조치할 수 있는 프로세스(절차)를 갖출 것을 권고했다.

이번 개선권고는 LLM 서비스 개발사에 대한 내용만 공개됐다. 개인정보위는 AI 모델을 기반으로 B2C(개인간 거래) B2B(기업간 거래) 등 서비스를 만드는 5개 사업자에 대한 조사 결과 및 개선권고 여부에 대해 추후 발표할 예정이다.

개인정보위는 AI 서비스에 대한 사전 실태점검을 조속히 마무리하고 지속적으로 모니터링하며 AI 관련 6대 가이드라인 등 정책 방향 마련, 개인정보 강화기술 개발·보급 등 후속 조치도 지속 추진한다는 방침이다.

황국상 기자 gshwang@mt.co.kr

ⓒ 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

04.27 (토)

당국, 오픈AI·구글·메타 LLM에 계좌·주민번호 사전제거 시정 권고

머니투데이 주요 뉴스