컨텐츠 바로가기

05.03 (금)

데이터 많이 필요 없는 AI 시대가 오고 있다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
디지털투데이

인공지능(AI) [사진: 셔터스톡]

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털투데이 황치규 기자] 머신러닝 인공지능(AI)을 실전에서 활용하려면 엄청난 규모의 데이터가 필요하다. 현재 머신러닝은 데이터가 많을수록 정확성도 좋아지는 구조다. 어떤 AI 모델이 말이라는 동물을 인지하도록 하려면 수천장에 달하는 말 사진을 보여주면서 훈련을 시켜야 한다. 그러다 보니 머신러닝은 많은 컴퓨팅 자원도 소모하게 된다. 데이터가 부족하거나 컴퓨팅 자원을 구입할 자금력이 떨어지는 회사들에게는 진입 장벽일 수밖에 없다.



이런 가운데 데이터가 없어도 돌아가는 AI 모델을 개발하려는 움직임이 활발해지고 있어 주목된다.



MIT테크놀로지리뷰 최근 보도를 보면 데이터가 많이 없어도 되는 AI 모델 연구가 나름 성과를 내고 있다. 캐나다 온타리오주 워털루 대학 연구팀이 새로 내놓은 논문을 다룬 기사는 '하나보다 적은 샷(less than one-shot: LO Shot) 러닝'으로 불리는 AI 방법론에 초점을 맞췄다.



LO 샷 러닝은 실제로 훈련된 예제 수보다 많은 물체를 정확하게 인지할 수 있다는 것이 골자다. AI 모델에 사용되는 데이터 규모가 커지는데 따른 비용 부담을 고려하면 의미 있는 연구 결과가 될 수 있다는게 MIT테크놀로지리뷰 설명이다.



워털루 대학 연구팀은 유명한 컴퓨터 비전 데이터세트인 MNIST로 실험하면서 LO 샷 러닝에 대한 아이디어를 시연했다. 0부터 9까지 손으로 쓰여진 숫자들로 된 6만장의 훈련 이미지를 포함하는 MNIST는 새로운 아이디어를 테스트할 때 자주 쓰인다.



워털루 대학 연구팀에 앞서 MIT연구원들은 논문에서 대규모 데이터 세트를 추출해 작은 것으로 만드는 기술을 선보였다. 이들 연구원은 개념검증(PoC) 프로젝트에서 MNIST를 10개 이미지로 압축했다. 6만장을 10장으로 줄였다는 얘기다.



이들 이미지는 원본 데이터들에서 선택된 것들이 아니었다. 원본 전체 데이터와 같은 급을 갖도록 최적화하는 엔지니어링 과정을 거쳤다. 결과적으로 압축한 사진 데이터 10장만으로 훈련된 AI 모델은 전체 MNIST 이미지를 갖고 했을 때와 같은 수준의 정확성을 보였다.



MIT테크놀로지리뷰에 따르면 워털루 대학 연구팀의 이번 논문은 여기에서 더 나간 케이스다. 사진 6만장을 10장까지 줄였다면 5개까지도 가능하다는 가설에 기반을 두고 있다.



연구팀은 여러 숫자들이 섞인 이미지를 만들어 하이브리드(hybrid) 또는 소프트 라벨(Soft label)을 붙여 AI 모델에 공급하는 것이 가능하다는 것을 알게 됐다.



워털루 대 박사 학생으로 이번 논문 메인 저자인 일리아 스초루트스키(Ilia Sucholutsky)는 "숫자 3을 생각하면 8처럼도 보이지만 7과는 전혀 닮은게 없다"면서 "소프트 라벨은 이들 공유된 기능들을 찾기 위해 시도한다. AI에 이 이미지는 숫자 3이라고 하는 대신에 60%는 숫자 3, 30%는 숫자 8, 10%는 0이라고 얘기한다"고 설명했다.



워털루대 연구원들은 MNIST 데이터세트로 LO 샷 러닝을 구현하기 위해 소프트라벨은 성공적으로 사용했다. 그러자 연구원들은 이걸로 어디까지 할 수 있을지가 궁금해졌다고. 놀랍게도 적은 수의 예제로 식별할 수 있는 AI 모델 카테고리에는 제한이 없다는 결론이 나왔다고 한다.



신중하게 엔지니어링된 소프트 라벨이 있으면 이론적으로는 예제 2개로도 여러 카테고리를 인코딩할 수 있다고 MIT테크놀로지는 전했다.



워털루대가 진행하는 연구는 여전히 초기 단계다. 하지만 AI 모델을 돌리는데 필요한 데이터를 파격적으로 줄일 수 있다는 점에서 주목된다. 라이언 구라나 몬트리올 AI 윤리 연구소 연구원은 "LO 샷 러닝은 개발된 모델이 구동되는데 필요한 데이터를 크게 줄일 수 있어, 기업들에게 보다 접근 가능하게 하고 데이터 프라이버시도 향상시킬 수 있을 것이다"고 말했다.



<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.