그러나 AI/ML 프로젝트를 추진하는 기업을 고민에 빠뜨리는 문제가 있다. 바로 데이터 관리다. 시장 성장과 함께 데이터 관리 문제가 심화되고 있다. 데이터 규모가 늘어났음에도 불구하고 부정확한 데이터로 인해 더 나은 고객 경험을 제공하지 못하는 기업이 많은 상황이다.
오늘날 데이터는 온프레미스와 멀티클라우드, 에지 등에 분산되어 있어 데이터 관리는 점점 복잡해지고 있다. 각 데이터를 관리하는 도구도 제 각각이다. 포레스터에서 발간한 보고서 '데이터 관리의 미래(The Future of Data Management)'에 따르면, 대부분 기업은 24가지 이상의 도구를 사용하고 있다. 그 결과 여러 관리 플랫폼 전반에 표준을 적용하기 어렵고 서로 다른 정책을 적용해야 하는 데이터를 통합 관리하기도 쉽지 않다. 여기에 더해 점점 증가하는 데이터의 양, 끊임없이 등장하는 새로운 데이터 유형과 데이터 소스 역시 관리 복잡성을 배가한다.
이런 환경으로 인해 데이터를 이해하고 준비하는 과정은 소모적인 작업으로 전락한다. 하지만 데이터 이해와 준비 과정은 소모적인 작업이지만 여전히 데이터 생명 주기에서 가장 중요한 부분이다. 데이터의 안정적인 품질을 보장하는 작업이기도 하며, 지속적인 인텔리전스를 공급하는 데 있어 중추적인 역할을 하기 때문이다.
밀리매트릭닷에이아이(Millimetric.ai)의 조사에 따르면, 응답 기업의 65%는 분석할 수 있는 데이터보다 더 많은 데이터를 보유하고 있다고 답했다. 애널리틱스에서 사용하지 않는 데이터는 최대 73%에 이르는 것으로 나타났다. 기업은 분석하기 어려울 정도로 많은 데이터를 보유하고 있으며, 불필요한 미사용 데이터를 적재하느라 비용을 낭비하고 있다. 데이터 자체에도 문제가 있는 것이 현실이다.
디노도는 데이터 관리 문제를 해결하기 위한 방법으로 논리적인 데이터 관리 전략 수립을 제안했다. 전체적인 프로세스와 각 역할자들에게 간소화된 상황에서 데이터를 처리하고 활용할 수 있는 환경을 만들어 줄 필요가 있다. 데이터 생성, 수집, 준비, 모델 배포 등의 단계를 조금 더 자동화된 환경에서 처리할 수 있도록 프로세스를 간소화하는 것이 핵심이다. 데이터 관리 기능을 하나의 스트림라인 형태로 간소화해 데이터 정책과 모델, 메타데이터를 통합 관리하는 환경으로 가야 한다.
디노도 플랫폼 아키텍처 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
디노도는 데이터 가상화 기반의 데이터 통합 및 관리 플랫폼을 제공한다. 데이터 가상화란 이기종 시스템에 분산된 데이터를 통합하고 데이터 보안과 거버넌스를 중앙에서 처리하며, 현업 비즈니스 사용자에게 통합 데이터를 실시간으로 제공하는 논리 데이터 계층이다. 데이터 메시나 데이터 패브릭 같은 아키텍처를 구현하는 핵심 기술이다.
데이터를 찾지 못하고 활용하지 못하는 것은 데이터 소유자와 데이터를 전달하는 IT팀, 데이터를 활용하려는 분석가 사이에 데이터가 전달되는 프로세스가 유기적이기 못하기 때문이다. 디노도 플랫폼은 데이터 가시성을 확보하고 전체 프로세스 자동화를 지원한다. 자동화를 통해 기업은 소모적인 데이터 관리 작업에 투입하는 시간과 비용을 크게 절약할 수 있다.
데이터를 효과적으로 활용하려면 데이터를 필요로 하는 현업 사용자가 이해하기 쉬워야 한다. 이를 위해 디노도는 시맨틱 레이어(Semantic Layer)를 구축해 복잡한 데이터를 숨긴다. 사용자는 시맨틱 레이어에서 일반 비즈니스 용어로 필요한 데이터를 검색할 수 있으며, 셀프서비스를 통해 모든 데이터에 대한 레이아웃, 관계, 맵, 계보, 통계 같은 정보를 시기 적절하게 분석에 활용할 수 있다. 디노도는 신규 데이터뿐 아니라 생성된 지 몇 십 년이 지난 원천 데이터에 표준을 적용해 시맨틱 레이어로 얹는 과정까지 모두 자동화한다.
이외에도 논리적 데이터 관리 전략의 이점은 다양하다. 예를 들어, 단기 데이터는 원천에서 조회하고 나머지 데이터는 저장소에서 가져오는 식으로 각 데이터에 서로 다른 정책을 적용하면 보다 비용 효율적으로 운영할 수 있다. 논리 모델만 변경하는 것이므로 데이터의 변화는 비즈니스에 영향을 주지 않는다.
보안 및 거버넌스 측면에서는 △실시간 데이터 액세스 및 전송 △데이터 복사본 감소 △일관된 데이터 관리/감사/모니터링 △데이터 계보를 통한 이해 증진 △데이터 마스킹 △일관된 보안 관리 등의 이점을 누릴 수 있다.
포레스터 조사에 따르면 85%의 응답자는 의사결정 시 데이터를 활용하는 방식을 개선해야 한다는 점을 인지하고 있었지만, 그중 91%는 개선하는 것이 어렵다고 답했다. 가트너는 데이터 과학 프로젝트의 85%가 실제 운영으로 전환되지 못한다고 지적했다.
기업은 논리적 데이터 전략을 통해 기술 변화를 적극적으로 수용하며 비즈니스 가치를 신속하게 비용 효율적으로 제공할 수 있다. 데이터 검색과 민감 데이터 분류와 같은 데이터 품질 향상 작업을 AI 기반으로 자동화하면 향후 발생하는 다양한 문제까지 쉽게 해결할 수 있다.
디노도는 지식 노동자에게 고품질 데이터를 제공해 직접 혁신을 주도하게 하고 불필요한 노력을 감소시켜 남은 시간은 고부가가치를 창출하는 업무에 집중하는 환경을 만들면 더 좋은 결과물이 나올 수 있다는 점을 강조한다.
유은정 기자 judy6956@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.