<이미지를 클릭하시면 크게 보실 수 있습니다> |
"랩 다이아몬드로 불리는 합성 다이아몬드가 등장한 후 가격 접근성도 변했지만 환경과 윤리적 문제들이 함께 해결됐습니다. AI시대, 합성 데이터는 바로 합성 다이아몬드와 같다고 생각합니다."
하헌석 큐빅 CTO가 20일 서울 중구 페럼타워에서 <메트로신문, 메트로경제> 주최 '2024 뉴테크놀로지 포럼-초현실사회로 : AGI가 재편하는 미래 생태계'에 참석해 'AI 혁신을 위한 미래데이터 : 합성데이터 소개' 강연을 진행했다.
합성 데이터(Synthetic Data)란 실제 데이터와 유사한 통계적 특성을 가지지만 개인정보 등 민감 정보를 포함하지 않은 가상 데이터를 뜻한다. 개인정보와 저작권 등 법적 제약을 극복할 수 있으면서 동시에 데이터 수집 비용을 절감하고 편향성도 함께 해결할 수 있어 AI 모델 학습을 위한 최적의 방안으로 떠오르고 있다.
하 CTO는 "AI는 방대한 데이터 셋 학습이 필수적이지만, 이 데이터를 확보하는 데에는 다양한 제약이 있다"며 "현재 오픈AI를 비롯해 주요 AI 기업들은 다양한 주체들로부터 저작권 위반 혐의로 고소를 당한 상태"라고 설명했다.
이어 "이러한 점들을 극복할 수 있는 대안이 바로 유사한 통계적 특성을 가지되 개인정보나 민감 정보를 보함하지 않는 가상 데이터인 합성데이터"라며 "가트너는 2030년까지 합성 데이터가 원본 데이터보다 더 많이 활용될 것이라고 전망하고 있다"고 밝혔다.
그러면서도 합성데이터 또한 일부 문제가 있을 수 있다고 지적하기도 했다. 허 CTO에 따르면 원본 데이터를 너무 충실히 모방하면, 합성 데이터만으로도 원본 데이터의 민감 정보가 노출될 가능성이 있다. 이를 해결하기 위해 차등 정보 보호(Differential Privacy) 기술이 도입됐는데, 이는 데이터 학습 시 노이즈를 추가해 원본 데이터의 샘플 정보 유출을 방지하는 방식이다. 구글, 애플 등 글로벌 IT 기업들은 이미 이 기술을 고객 데이터 보호에 활용하고 있다.
허 CTO는 "미래의 데이터 산업은 단순히 데이터를 활용하는 데 그치지 않고, 합성 데이터 기술을 중심으로 한 새로운 생태계를 만들어가고 있다"며 "이제는 다이아몬드와 데이터가 합성 기술로 재탄생하며, 우리의 삶과 산업에 혁신을 가져올 준비를 마쳤다"고 마무리 지었다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.