데이터 품질의 문제는 정확성, 완전성, 일관성, 편향성 등에 영향을 미친다. 정확성이 낮은 데이터는 AI 모델의 오류율을 높이고, 완전하지 않은 데이터는 모델 학습에 필요한 정보를 제공하지 못한다. 또한, 일관성이 없는 데이터는 모델 학습 과정을 방해하고, 편향된 데이터는 모델의 결과에 불공정한 영향을 미친다. 따라서 AI 기술의 발전을 위해서는 데이터 품질 관리가 필수적이며, 이를 위한 다양한 노력이 필요하다.
여러 기업들이 경쟁적으로 AI 데이터 관련 시장에 진출하는 가운데 '데이터 품질 평가'에 중심을 둔 기업이 있다. 바로 페블러스. 페블러스의 데이터 품질 평가 솔루션 '데이터 클리닉'은 합성데이터의 오남용 문제를 해결하는 정밀 타게팅 합성데이터 제작과 더불어 데이터 품질 자체를 진단하여 공정한 데이터 거래와 효율적인 AI 개발을 돕고 있다.
AI 기술의 핵심인 데이터에 진심을 담고 고객에게 꼭 필요한 정보만을 제공해 국내외에서 주목받고 있는 페블러스의 이주행 대표를 만나 AI 모델의 정확성과 효율성을 높이고, 사회적 책임과 윤리적 문제 해결에도 기여하는 데이터 기술과 사업 전략을 들어봤다.
페블러스 이주행 대표 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
최근 생성AI로 주목받는 인공지능(AI) 기법들은 대부분 대용량의 데이터를 신경망이 학습하는 딥러닝 기계학습에 기반하고 있다. 불과 몇 년 전 까지만 해도 AI는 신경망의 디자인에 좀더 집중한 모델 중심 AI 개발로 모델이 학습할 데이터는 품질보다는 양적 조건을 충족하는데 집중했다. 그렇다 보니 학습 데이터의 품질이 개별 데이터의 라벨링 품질 평가에 그쳤고 데이터 전체의 분포적 품질을 고려한 사례는 별로 없었다. 그래서 AI 성능에 문제가 생기면 신경망의 디자인이나 학습 인수를 조정하거나, 더 많은 데이터를 넣는 것으로 해결하려고 했다.
하지만 최근에는 AI 개발이 모델중심 개발에서 데이터 중심 개발로 옮겨가고 있다. 특히 AI는 성능만이 아닌 윤리와 공정성, 안정성 및 설명 가능성이 요구되고 있다. 아쉽게도 현재의 거대한 신경망 어디에도 윤리와 공정성과 같은 상위의 개념을 찾기는 어렵다. 이러한 가치는 사실 AI에게 주어지는 학습 데이터에 담겨 있고 현재 거대한 데이터를 관찰하기 어렵다는 점이 문제이다.
그러므로 관찰가능한 데이터와 이를 기반으로 한 데이터의 품질평가가 AI 모델 개발에 반드시 선행되어야 한다. 이는 데이터 문해력(data literacy)의 분야이며 이 분야가 발전이 된다면 AI에 대한 이해도, 성능과 안정성 등이 지금보다 개선될 것이다.
페블러스는 2021년 11월에 설립된 AI 데이터 관련 스타트업이다. 한국전자통신연구원(ETRI)에서 20년 이상 연구경험이 있는 책임연구원 두 명(이주행 대표, 이정원 부대표)이 공동창업자로 설립했다. 창업 전에는 연구소에서 컴퓨터그래픽스와 로보틱스 등 다양한 분야에서 기술 개발과 사업화 경험을 쌓았다.
2015년부터 본격적으로 AI 연구를 시작했고, 이때 처음으로 AI 학습데이터에 관련된 분야를 다루게 되었다. 국내에서 가장 처음으로 컴퓨터비전 분야의 합성데이터(synthetic data)를 컴퓨터그래픽스 기술을 이용해서 만들었다고 생각한다.
합성데이터는 실제 수집한 데이터가 양적으로 부족하거나 비용 부담과 보안 문제 등으로 실제 데이터를 사용할 수 없을 때 사용하는 시뮬레이션 데이터이다. 물류 로봇의 물건 조작을 위한 데이터셋을 시작으로 자율주행 로봇의 경로계획을 위한 가상 센서 데이터, 의료분야에서 알약 자동분배를 위한 가상 알약, 인간로봇 상호작용 분야를 위한 인간행동 데이터, 폐암세포 구별을 위한 이미지 데이터, 세관 밀수품 식별을 위한 엑스레이 영상 데이터 등을 제작하여 기술 이전했다.
2021년 초에 연구원 창업지원 프로그램을 통해 본격적으로 합성데이터 기술을 상용화해 보기로 결심했다. 폭발적으로 성장하는 AI 분야에서 합성데이터에 대한 시장수요 역시 꾸준할 것으로 예상했으며, 창업을 준비하는 동안 합성데이터 시장의 성장을 체감할 수 있었다.
국내에서는 당시에 합성데이터를 주제로 출범한 데이터 스타트업은 거의 전무했다. 하지만, 놀랍게도 해외에는 수십개의 스타트업들이 매우 빠른 속도로 성장하고 있었다. 시장조사 기관 가트너나 MIT 테크놀로지 리뷰 전망에서는 합성데이터를 유망 사업으로 보고 있었다. 하지만 향후 최소 3년에서 7년까지의 성장기간이 필요한 상황에서 합성데이터에만 의존하기에는 글로벌 경쟁력에서 불안한 점이 있었다.
페블러스가 새롭게 찾아낸 분야가 '데이터 품질평가' 영역이다. 합성데이터는 데이터의 품질을 향상시키는 치료제로서 역할을 하고 있지만, 얼마나 많은 데이터를 어디에 투입해야 해야 할지를 따지지 않고 양적으로만 접근하고 있다는 한계가 있다. 이러한 문제를 해결하려면 AI 학습 전에 데이터의 품질에 대한 보장이 선행되어야 한다.
결국 합성데이터의 오남용 문제를 해결하는 정밀 타게팅 합성데이터를 만들어 낼 수 있고, 합성데이터와는 무관하게 데이터의 품질 자체를 진단할 수 있게 되어 공정한 데이터 거래와 효율적인 AI 개발까지 연결될 것이라고 생각했다.
이렇게 주요사업 분야를 설정하게 되었고, 이 서비스의 이름을 '데이터 클리닉(data clinic)'으로 하여 2년간 연구개발에 매진했다. 2022년에 발효된 데이터 산업법에는 데이터품질평가가 매우 강조되고 있으며 올해부터 정형데이터를 시작으로 데이터 품질평가가 시작되고 있으며 하반기에는 비정형 분야까지 확대될 예정이다. 페블러스는 이런 동향에 딱 맞춰진 기술로 이미 일부 고객들이 사용 중에 있다. 그리고 데이터 클리닉 기술 특허를 이미 미국에 2건 등록해 글로벌 진출도 준비하고 있으며, 지난 1월 미국에서 개최된 CES 2024에도 참가해 국내외 잠재고객들에게 큰 호평을 받았다.
페블러스 데이터 클릭닉의 가시화 도구 데이터 유니버스 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
페블러스 '데이터 클리닉'은 데이터를 위한 종합 병원이다. 우리가 건강의 문제가 의심되거나 또는 지속적인 건강관리를 위해서 병원에서 건강검진을 받고 처방과 치료를 받는 것처럼, AI의 재료가 되는 학습데이터도 지속적인 품질관리와 개선이 필요하다. 데이터에 의존하여 AI의 윤리와 안전이 설명되어야 하는 만큼 데이터에 대한 품질 관리는 AI 개발의 핵심요소가 되고 있다.
데이터의 품질은 AI 분야에만 존재하는 것은 아니다. 미국에는 수백 조에 이르는 데이터 브로커(데이터 거래) 시장이 존재한다. 특히 결합 데이터를 통해 마케팅 고도화를 하려는 목적에서 다양한 분야의 데이터들이 거래되고 있다. 통계 데이터도 마찬가지이다. 이들 데이터들의 가격은 데이터 개수가 아닌 품질로 평가되고 있다.
데이터는 이제 더 이상 양적인 수만으로 상품이 될 수 없다. 이는 마치 고철을 무게로 달아 팔고 있는 것과 같다. 데이터는 분포적인 품질을 따져 봐야 한다. 데이터에 빈 구멍은 없는지, 유사한 것들이 중복되어 있지는 않은 지 등을 따지는 과정이 필요하고, 고가의 주요 데이터일 수록 이런 품질인증은 필수가 될 것이다.
페블러스 '데이터 클리닉'은 빅데이터 및 AI 학습데이터의 품질평가와 개선을 위한 올인원(all-in-one) 종합 솔루션을 제공한다. 데이터 클리닉은 크게 진단과 개선의 두 파트로 구성되어 있다. 진단 분야는 고객의 데이터가 주어지면 각종 기준을 이용해서 데이터의 품질을 측정한다. 기존의 데이터 분석도구와 다른 점은 AI을 이용해서 데이터의 품질을 진단한다는 것이고, 그 진단의 결과과 웹, PDF, 인쇄물, 인터랙티브 등 다양한 형태로 제공되며, 또한 후속의 데이터 개선의 근거 자료가 된다는 것이다.
페블러스의 데이터 클리닉의 데이터 진단 프린트 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
진단과정은 다시 데이터 이미징과 진단으로 나뉘어 진다. 이미징에서 핵심적인 기술은 '데이터 렌즈(data lens)' 이다. 엄청나게 높은 차원과 분량의 데이터를 관찰 가능하고 측정 가능하게 변환하는 것이 주요기술이다. 이를 통해 데이터의 주요 특징은 유지하면서 두 개별 데이터 사이의 거리를 측정할 수 있게 하는 '데이터의 임베딩'을 만든다.
이렇게 변환된 데이터에 대해서는 거리 계산을 비롯해 각종 측정이 가능하다. 중요한 측정은 개별 데이터의 밀도이다. 이 단계에서 유사한 데이터가 걸러지거나 데이터가 희소한 부분이 발견된다. 그리고 데이터의 크기(coverage), 균질도, 편향 등 다양한 특징들이 계산된다.
이러한 진단의 결과들은 다양한 차트와 인터랙티브 가시화 방법으로 제공된다. 현재 국내외 유명 데이터셋 100여개에 대해서 시범적으로 데이터 진단을 완료하고 웹 버전으로 데이터 진단리포트를 출시했다. PDF와 인쇄 버전도 존재한다. 특히 '데이터 유니버스'는 진단결과를 인터랙티브하게 탐색하며 인사이트를 얻을 수 있는 데이터 커뮤니케이션 도구이다. 차원이 높은 데이터의 특성상 2차원 웹이나 문서 보다는 3차원 인터랙션을 통해 데이터의 다양한 속성들을 관찰할 수 있다. CES 2024에서 가장 큰 주목을 받은 기술이다.
데이터 진단 이후의 다음 단계는 개선이다. 데이터 클리닉이 제공하는 개선은 크게 두가지 방향이다. 데이터의 양을 늘리는 데이터 벌크업과 데이터의 양을 최적으로 줄이는 데이터 다이어트이다. 데이터 벌크업는 합성데이터를 추가해 데이터의 양을 늘리는 것이다. 종전의 기술과 다른 점은 데이터 품질진단을 통해 정밀 타게팅 방법으로 최적의 합성데이터를 생성한다는 점이다. 최근에는 생성AI 기법도 도입을 해서 합성데이터의 품질을 고도화하고 있다. 잘 알려지지 않았지만, 중요한 데이터 개선 방법은 데이터 다이어트이다. 이 역시 데이터 진단에 기반한다. 즉, 지나치게 많은 데이터들을 과감히 줄여 초기의 AI 실험의 효율을 높일 수 있다. 예를 들어 10%의 데이터만 사용하더라도 5% 미만의 성능저하가 발생하는 데이터셋도 있다. 이는 AI 학습비용과도 직결된다. 최근에 엄청나게 비싸진 GPU 가격을 고려한다면 경량화 데이터의 사용은 AI 개발 과정의 효율을 증대시켜 줄 것이다.
페블러스는 현대자동차 제로원 투자기업으로 처음으로 이번 CES 2024에 참여할 수 있었다. 현대자동차는 제로원 프로그램을 통해 2022년 10월에 프리 A 투자에 참여했고, 이때부터 현대자동차와 다양한 협업을 진행하고 있다. CES와 같은 글로벌 전시회에 현대자동차와 공동부스 참여는 여러 이점이 있었다. 많은 VIP 관람객의 방문 뿐만 아니라 토요타나 벤츠와 같은 글로벌 자동차 회사의 실무 담당자들이 방문해 현장 데이터 관련 기술과 산업 정보를 공유할 수 있었다.
페블러스는 나이키를 생산하는 TKG의 물류 데이터를 이미 다루고 있어 데이터를 중심으로 한 현장의 문제들을 중심으로 소통할 수 있었고, 다양한 AI 스타트업들도 데이터 클리닉의 데모를 보고 많은 관심과 협업을 모색할 수 있었다. 그중 몇 군데 대기업과 스타트업들과는 행사 후에 POC 프로젝트 및 정부과제 제안을 준비하고 있다.
CES 참가 성과는 우선 그 동안 열심히 준비해 온 데이터 클리닉의 실체를 글로벌 공개와 함께 글로벌 및 국내 고객들에게 큰 호평을 받았다는 것이다. 페블러스의 모토는 한글로는 '데이터의 진심'이고 영어로는 'Pebblous Makes Data Tangible'이다. 즉, 고객이 쉽게 느끼고 이해할 수 있는 데이터를 만들어 드린다는 의미이다. 이러한 비전이 고스란히 담긴 데이터 클리닉의 여러가지 산출물들이 실제로 고객의 데이터의 이해를 높일 수 있다는 점에서 자신감을 얻었다.
두번째는 다양한 분야의 고객을 만나 데이터 클리닉의 활용과 시장을 확대할 수 있다는 자신감이 생겼다는 것이다. CES에서 만난 고객들은 대부분 DB에 담겨져 있는 정형 데이터의 품질과 가시화에 관심이 많았다. 페블러스는 작년부터 제조데이터와 금융데이터 분야의 품질평가와 합성데이터 생성을 시작했기에 정부 부처, 화장품, 겜블링, 소비자 행동, 금융 및 보험상품 설계 등 다양한 산업군 관람객과 고객들에게 자세히 설명할 수 있었다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
페블러스 사명은 영어로 pebblous이고 영어의 두단어 fabulous pebble을 결합하여 만든 이름이다. 창업을 준비할 때 회사의 비전을 먼저 정했다. 창업자들의 스토리를 담고 시대의 흐름을 고려했을 때, '사용자와 데이터의 간극을 줄이는 것'을 사명으로 삼았다. 모래알처럼 많고 손에 잡기 어려운 데이터가 아니라 조약돌처럼 한 손에 꼭 잡히는 그런 데이터를 고객의 손에 쥐어 드리겠다는 생각을 했고, 그런 멋진 조약돌을 표현하는 pebblous를 만들었다.
페블러스는 첫 시드 투자 발표 때의 로드맵을 차근차근 밟아 가고 있다. 그때의 로드맵에는 크게 두가지 분야를 담고 있었고 순차적인 진입을 목표로 했다. 첫번째 주제로는 연구소에서 기술 사업화를 하던 주제인 합성데이터와 데이터 품질평가를 고도화하여 글로벌 B2B 시장에 진입하는 것이다.
현재 2년째 열심히 계획을 실현하기 위해 한 단계 견실하게 다져가고 있다. 올해가 3년차가 되는데 상반기중에 시리즈A 투자를 오픈하는 것이 목표이다. 이를 위해서 페블러스와 데이터 클리닉이 시장에서 꼭 필요한 도구로 자리매김하고 있다는 점을 증명하기 위해 작년보다 더 많고 다양한 산업의 고객들과 데이터 클리닉 활용을 논의하고 있다.
특히 올해는 글로벌 진출을 위해 데이터 클리닉을 B2B SaaS 형식으로 제공할 방침이다. 현재까지는 주로 프로젝트 기반으로 데이터 진단과 개선을 수행하고 있는데, 전과정을 자동화하여 다양한 데이터 플랫폼에 연동하는 것이 목표이다. 그리고 데이터 클리닉 챗봇을 만들어 사용자 편의성을 높일 것이다. 데이터 클리닉이 전문적인 내용이다 보니 진단보고서가 만들어져도 그 내용과 차트를 해석하는데 어려움이 있다. 현재 프로토타입을 만들었고 다양한 시나리오를 추가하는 일을 순조롭게 진행하고 있다.
페블러스의 장기적인 두번째 로드맵은 B2C 분야의 진출이다. 특히 데이터로서의 개인의 삶을 가꿀 수 있도록 하는 '데이터 캔버스' 서비스이다. 내가 닮고 싶은 사람이나 목표를 설정하고, 그 사람과 나의 데이터로서의 거리를 측정하여 그렇게 성장하고 발전하고 성장할 수 있는 데이터 기반의 라이프 코칭 도구이다. 기술적으로 '데이터 클리닉'에 기반하고 있고 개인의 삶이라는 새로운 분야로 진출해 보고자 한다. 데이터 클리닉이 시장에 잘 안착한 이후에 시작할 수 있을 것 같다. 역시 큰 글로벌 시장을 목표로 하고 있다.
페블러스를 창업하기 전에 매우 진지한 연구자였다. 또한 대전비엔날레에 초대받고 10차례 이상의 전시 참여 경험이 있는 아티스트이기도 한다. 이런 두 가지 상이한 경험들은 현재 고객을 만나는데 큰 도움이 되고 있다. 고객과의 상담에서 너무 세세한 기술 이야기만 하지는 않으며, 너무 먼 비전만을 이야기하지도 않는다. 고객의 눈 높이에 맞게 기술과 사업에 대해서 데이터를 중심으로 편하게 소통할 수 있는 것이 페블러스의 경쟁력 중에 하나라고 생각한다. 고객과의 만남, 혹은 소통에서는 편안함이 중요하다. AI과 DX를 위해 만났지만, 그 중심은 데이터에 있고 고객이 비밀리에 간직하고 있는 고객의 데이터를 실제로 보여줄 때가 가장 뿌듯하고 설렌다.
AI은 어디에나 존재하는 시대가 되었고, 그 진입장벽은 날로 낮아지고 있다고 생각한다. 엑셀 스프레드시트를 쓰듯이 AI을 쓰게 되는 날이 머지않았다. 문제는 여전히 입력되는 데이터이다. 아무리 좋은 AI 모델이 있어도 공부할 데이터가 준비되어 있지 않다면 소용없다.
그러므로 현재의 데이터의 상태를 측정하고 데이터 수명주기 관점에서 장기적인 데이터 수집 계획까지 수립하는 것이 필요하다. 페블러스와 '데이터 클리닉'은 딱 이런 목적으로 만들어진 서비스이다. 많은 기업과 조직의 고객들과 유의미한 데이터를 활용할 수 있는 방법을 함께 논의하고 구현할 수 있도록 페블러스의 문은 항상 열려 있다.
유은정 기자 judy6956@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.