컨텐츠 바로가기

05.18 (토)

'복사 붙여넣기' AI 웹스크래핑 계속…개인정보보호 가드레일 나온다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털데일리 김보민기자] 인공지능(AI) 모델이 학습하는 데이터가 개인정보를 침해하지 않도록 돕는 가이드라인이 나온다. 공개 개인정보를 활용하는 과정에서 일종의 가드레일을 세우는 것이 관건이다.

개인정보보호위원회(이하 개인정보위)는 3일 종로구 정부서울청사에서 'AI 프라이버시 민·관 정책협의회' 전체회의를 개최했다. 현장에는 협의회를 이끄는 고학수 개인정보위 위원장과 배경훈 LG AI연구원장(공동 의장)과 데이터 처리기준, 리스크 평가, 투명성 확보 등 3개 분과 관계자가 참석했다.

엄열 과학기술정보통신부(이하 과기정통부) 인공지능기반정책관도 자리했다. 과기정통부와 개인정보위는 지난 4월 정책 협의회를 열고 보이스피싱 조기 탐지를 주제로 음성 정보 활용 방안을 논의하는 등 AI 분야에서 협력하고 있다.

이날 최대 화두는 AI 시대에 맞는 '공개 개인정보 활용법'이었다. 그간 데이터 담당 분과는 공개 개인정보 활용 가이드라인을 마련하는 데 집중해왔다. 가이드라인은 올 5월 공개된다.

고학수 위원장은 "이번 가이드라인은 AI 개발, 적용, 활용 등 전체 맥략에서 중추가 될 핵심적인 의의를 담을 예정"이라며 "인터넷상에 존재하는 개인정보가 AI 학습에 안전히 활용되고, AI 기업 혁신을 돕는 역할을 할 전망"이라고 말했다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


현재 AI 모델은 온라인에서 제공되는 데이터를 학습하는 방식으로 지능을 고도화하고 있다. 특히 생성형 AI를 활용하는 서비스가 늘어나면서, 더 많은 토큰 역량을 갖춘 거대언어모델(LLM)이 주목받기 시작했다.

그러나 학습방식이 웹스크래핑에 의존하는 경우가 많아, 공개 개인정보를 무분별하게 가져가 쓸 수 있다는 우려가 커지고 있다. 웹스크래핑이란 온라인 출처에서 자동으로 데이터를 추출하는 것으로, 소셜미디어와 영상 공유 사이트 또한 대상이 될 수 있다. 개인 동의 없이 개인정보가 AI에 학습될 수 있다는 윤리적 문제가 제기되는 이유다. AI 모델 학습에 데이터를 '복사 붙여넣기'하는 것이 아니냐는 비판도 나온다.

현재 미국, 영국, 프랑스 등 주요국은 대규모 웹스크래핑에 대한 경각심을 드러내고 있다. 일본도 마찬가지다. 이날 배경훈 원장은 "일본은 한국에 비해 정보화가 늦지만, AI 산업에서 선진적으로 나아가기 위해 총리 직속 기관을 설치하는 등 가이드라인 발표에도 앞장서고 있다"며 "개인정보위가 공개하는 이번 가이드라인이 대한민국 AI 발전에 나침판 역할을 해줄 것으로 기대한다"고 강조했다.

가이드라인에 담길 세부 내용은 아직 공개되지 않았다. 고 위원장은 "AI 맥락에서 공개된 개인정보 활용과 관련한 일종의 가드레일을 설치해 우리 기업의 불확실성을 해소하는 계기가 되기를 기대한다"고 설명했다.

한편, 개인정보위는 이날 협의회 관계자들과 토의를 거쳐 가이드라인을 수정 및 보완할 계획이다. 글로벌 관점에서 본 최신 AI 트렌드도 담길 전망이다.

배 위원장은 "일부 전문가는 머지 않아 인류가 만들어낸 모든 데이터를 AI로 학습할 수 있을 것이라는 전망도 내놓는다"며 "AI 발전을 위해 핵심 원료인 공개 데이터를 올바르게 사용하고, 프라이버시 침해를 예방할 기준이 필요한 때"라고 말했다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.