![]() |
오늘날 온프레미스, 하이브리드 클라우드 등 여러 곳에 분산된 방대한 데이터 환경으로 야기된 복잡성은 기업 비즈니스 운영을 저해하는 요인으로 작용하고 있다. 효율적인 데이터 관리를 지원할 강력한 데이터 아키텍처 도입의 중요성에 관심이 모아지고 있는 가운데, 많은 기업들은 ‘데이터 레이크하우스’를 채택해 운영하고 있다.
데이터 레이크 확장성과 데이터 웨어하우스 관리 기능을 결합한 ‘데이터 레이크하우스’는 정형 및 비정형 데이터, 즉 모든 데이터 세트에 대한 통합 관리 기반을 제공하는 총체적 데이터 관리 방식이다. 기업은 데이터 레이크하우스를 통해 AI 모델 구축과 고급 분석 등을 원활히 수행하고 데이터 기반 의사결정을 가속화하는 등 다양한 이점을 누릴 것으로 기대한다.
하지만 기대와 달리 대다수 기업은 여전히 데이터 관리에 난항을 겪고 있다. 수많은 데이터 소스에 흩어진 대량의 데이터로 인해 현업 사용자는 원하는 데이터에 쉽게 접근하지 못하고, 일관성이 부족한 데이터 관리로 데이터 품질과 신뢰성이 저하되고 있는 것이다. 거버넌스 측면 또한 하나의 과제이다.
이러한 문제가 지속되는 본질적 이유는 명확하다. 데이터 레이크하우스가 기업 데이터를 통합해 처리할 수 있는 기술적 기반을 제공하기는 하나, 데이터를 실제로 쉽게 찾고 이해하며 활용할 수 있는 환경은 아니기 때문이다. 이를 해결하기 위한 수단으로 최근 데이터 가상화 기술을 기반으로 한 논리적 데이터 관리가 주목받고 있다. 논리적 데이터 관리는 데이터 레이크하우스 취약점을 보완하며 기업들에게 다음과 같은 이점을 제공한다.
첫째, 통합된 시맨틱 계층을 구축해 누구나 데이터를 쉽게 이해할 수 있다. 데이터 레이크하우스는 단순히 데이터를 물리적으로 통합할 뿐 비즈니스 문맥에 따라 데이터를 해석할 수 있도록 돕는 시맨틱 계층은 갖추고 있지 않다. 이로 인해 사용자는 데이터 탐색에 어려움을 겪는 것은 물론, 데이터의 의미를 오역하는 문제 상황에 처하기도 한다. 논리적 데이터 관리는 레이크하우스 안팎의 모든 데이터를 비즈니스 맥락에서 하나의 논리적 데이터 계층으로 통합함으로써 사람과 AI 모두가 비즈니스 언어로 데이터를 이해하고 사용할 수 있는 환경을 제공한다.
둘째, 셀프 서비스 기반 데이터 접근을 가능케 한다. 기존 데이터 관리 환경은 대부분 복잡한 기술적 메타데이터로 구성돼 있어 상대적으로 기술적 지식이 부족한 일반 비즈니스 사용자가 데이터에 접근하고 활용하는 데에는 분명한 한계가 존재한다. 사용자 친화적인 데이터 검색 기능, 풍부한 메타데이터, 조직 내 역할에 따른 명확한 데이터 접근 체계가 없다면 일반 사용자는 계속해서 IT 부서에 의존할 수밖에 없다. 데이터 가상화 기반 논리적 데이터 플랫폼은 사용자가 스스로 데이터를 탐색하고 활용할 수 있는 셀프 서비스 환경을 지원함으로써 개발 및 분석 속도를 높일 뿐 아니라, 조직 전체에 데이터 중심 혁신 문화를 조성하는 데 기여한다.
셋째, 중앙 집중식 거버넌스를 제공한다. 멀티 클라우드 및 다양한 기술 스택으로 구성된 오늘날 데이터 환경은 시스템마다 각기 다른 보안, 접근 제어, 거버넌스 정책을 적용하기 때문에 분산된 환경의 모든 데이터를 데이터 레이크하우스에서 통합 관리 및 통제하는 것은 구조적 한계가 있다. 하지만 논리적 데이터 관리의 경우, 가상의 통합 계층에서 분산된 데이터 위치에 관계없이 중앙 집중적인 정책 실행이 가능해 데이터에 대한 접근 제어 및 개인정보 보호 기준을 적용할 수 있다. 뿐만 아니라 시맨틱 계층 내의 속성과 태그를 활용해 민감한 데이터를 식별하고 사용 이력을 모니터링 하는 등 기능을 지원해 데이터 활용시 발생할 수 있는 리스크를 효과적으로 줄일 수 있다.
넷째, 실시간 데이터 접근 및 효율적인 비용 관리가 가능하다. 맞춤형 서비스에 대한 고객들의 선호도가 증가하며 비즈니스 운영 시스템과 AI 애플리케이션에서 즉각 활용할 수 있는 실시간 데이터가 중요해지고 있다. 이러한 흐름 속에서 일정한 주기로 데이터를 처리하는 배치 기반 구조의 데이터 레이크하우스 환경에 실시간성을 확보하는 것은 추가적인 복제 작업이나 스트리밍 시스템 도입을 요한다. 반면, 데이터 가상화 기술은 실시간으로 원천 시스템에서 직접 데이터를 조회할 수 있기 때문에 불필요한 복제를 하지 않고도 신속한 응답이 가능하다. 또한, 쿼리 최적화 기능과 비용 모니터링을 통해 빠른 성능을 유지하면서도 운영 비용을 효과적으로 관리할 수 있다.
실제로 국내외 다수 기업이 데이터 레이크하우스가 가진 한계점을 보완하기 위해 논리적 데이터 관리 방식을 채택하고 있다. 대표적인 예로, 유럽의 한 대형 보험사의 경우 수년간 투자해 현대적인 데이터 레이크하우스 플랫폼을 구축했음에도 불구하고 통합된 시맨틱 계층 부재와 분산된 데이터 환경으로 인해 비즈니스 운영에 어려움을 겪고 있었다. 이에 해당 보험사는 논리적 데이터 관리 플랫폼인 디노도 플랫폼을 도입해 실시간 시맨틱 계층과 일관된 거버넌스 체계를 구축하고 데이터 레이크하우스가 원활하게 작동할 수 있는 기반을 마련했다. 그 결과 데이터 엔지니어와 비즈니스 분석가들은 스스로 필요한 데이터를 탐색할 수 있게 되었으며, 대출 포트폴리오 분석과 같은 주요 업무의 소요 시간을 기존 수개월에서 일주일 내로 단축하는 가시적인 성과를 거뒀다.
데이터 레이크하우스는 현대 데이터 아키텍처의 중요한 축이지만 오늘날 조직이 직면한 복잡한 데이터 활용 과제를 해결할 수 있는 완전한 대안이 되지는 않는다. 이러한 측면에서 논리적 데이터 관리는 기존의 레이크하우스를 보완하는 대안으로 데이터 간 실시간 통합, 비용 효율성 등을 가능케 하며 데이터 레이크하우스가 본래 지향하는 인사이트 중심의 데이터 활용, 측정가능한 비즈니스 가치를 실현할 수 있도록 한다. 국내 기업들이 데이터 가상화 기술 기반의 논리적 데이터 관리 방식을 통해 데이터를 혁신과 비즈니스 경쟁력을 강화하는 전략적 자산으로 활용하고 실질적인 비즈니스 성과를 달성하기를 기대해 본다.
김세준 / 디노도코리아 기술 총괄 상무
<기고와 칼럼은 본지 편집방향과 무관합니다.>
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.