컨텐츠 바로가기

03.29 (금)

데이터브릭스 “개방형 통합 데이터 레이크하우스로 가속화되는 국내 시장 전폭 지원”

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
3월 29일 데이터 레이크하우스 기업 데이터브릭스(Databricks)가 한국 지사 설립 1년을 맞아 올해 한국 시장에 대한 투자를 더욱 확대하겠다고 발표했다. 국내 레이크하우스 도입이 증가하는 가운데 데이터브릭스는 기술 전문가, 영업, 서포트 엔지니어 등의 고객 지원 및 사업 확장을 위한 인력을 확충해 한국 비즈니스 성장을 가속하고 고객 성공을 견인하겠다는 방침을 세웠다. 지난해 데이터브릭스는 아태지역 전반에 걸쳐 전년 대비 90% 비즈니스 성장과 80% 인력 확장을 이뤘다.

데이터브릭스는 데이터 레이크하우스 분야를 개척한 기업이다. 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합하여 모든 데이터에 대한 엔지니어링, 비즈니스 인텔리전스(BI) 및 AI와 ML(머신러닝)을 모두 지원하는 개방형 통합 데이터 플랫폼이다.
ITWorld

ⓒ Databricks

<이미지를 클릭하시면 크게 보실 수 있습니다>



데이터브릭스는 배치 또는 스트리밍 형태로 수집되는 대량의 정형 및 비정형 데이터를 처리하기 위한 기존의 복잡한 아키텍처를 단순화한다. 또한, 오픈소스 및 개방형 표준을 기반으로 구축되어 업체에 종속되는 위험요소를 피하고 유연성을 확보할 수 있다. 더불어, 데이터브릭스는 BI 애널리스트와 AI/ML을 다루는 데이터 사이언티스트들이 통합된 거버넌스 프레임워크에서 데이터 액세스를 관리할 수 있도록 지원할 뿐 아니라, 데이터 엔지니어들이 통합된 환경을 통해 업무 효율을 향상시키도록 돕는다.

장정욱 데이터브릭스 코리아 대표는 다양한 데이터와 지표를 언급하며 데이터 및 AI 시장의 수요 확대를 예측했다. IDC의 최근 발표 자료에 따르면 글로벌 AI 시장은 9,000억 달러 규모로 성장할 가능성이 있다. 지난해 말부터 많은 관심을 받고 있는 생성형 AI 분야의 기여를 고려하면 실제로는 3배 이상 더 폭발적으로 성장할 것이라는 자료도 소개했다.

장정욱 대표는 IT와 파이낸스에 국한되지 않고 기업 내 여러 가치 사슬 안에서 다양한 계획이 실행되고 잇으며, 단순 기술뿐 아니라 조직, 프로세스, 인력적 준비가 실제 AI 확산에 매우 중요한 역할을 한다고 강조했다. 각 비즈니스 조직에 적합한 데이터 전략이 필요한데, 이때의 핵심은 기술적 혁신뿐 아니라 데이터나 머신러닝 기술과 실제 성과가 연결되어야 한다는 것이다. 따라서 AI의 성공적인 발전과 정확성을 확보하기 위해서는 데이터의 품질과 신뢰도가 중요하다. 프로세싱 속도를 확보해야 하고, 양질의 데이터를 AI 모델에 공급해야 하고, 데이터 리니지를 통해 누가 데이터를 사용하고 어떤 데이터가 어디에서 흘러 들어왔는지 가시성 있게 볼 수 있어야 한다는 의미다.
ITWorld

데이터브릭스 코리아 장정욱 대표 ⓒ Databricks

<이미지를 클릭하시면 크게 보실 수 있습니다>



아파치 스파크(Apache SparkTM), 델타 레이크(Delta Lake)와 MLflow를 개발한 주역이 모여 설립한 데이터브릭스는 전 세계 각 조직의 데이터 팀이 가지고 있는 가장 어려운 도전과제 해결을 돕는다는 사명을 갖고 있다.

데이터브릭스의 제품도 역시 명확하고 가시성 있는 정책으로 시장 출시 시간을 개선하고, 실제 생산과 직결된 측면에서 데이터를 관리하는 데에 중점을 두고 있다. 조직 내 여러 프로세스에 병목 현상이 있지만, 데이터와 AI를 기반으로 자동화하고 서비스를 만들어 새로운 정책에도 데이터를 활용할 수 있게 돕는 것이다.

그러나 장정욱 대표는 실제로는 많은 기업이 데이터 사일로 단게에 머물러 있다고 지적했다. 조직과 팀이 분리되어 있고, 데이터는 중복되며, 각기 다른 도구를 사용해 비효율성이 발생하는 단계다. 그 이유는 첫째, 너무 많은 플랫폼을 병합해 사용하기 때문이다. 데이터가 중복되고 운영 비용이 높을 수밖에 없다. 두 번째 이유는는 일관성 없는 관리 정책으로 데이터 신뢰가 저하되기 때문이다. 세 번째는 실제 사용자 측면에서 사용하는 도구와 언어가 달라 커뮤니케이션 비용이 들고 협업 생산성이 저하되고 있기 때문이다.

장정욱 대표는 이때 데이터 레이크하우스를 통해 ▲정형/비정형/반정형 등의 모든 데이터를 클라우드 기반으로 저장하고 활용해 이동과 중복을 배제, ▲더욱 개방된 포맷과 안정성 높은 파일 형태로 관리/운영하는 하나의 단일 플랫폼, ▲노트북 대시보드 같은 여러 데이터 자산을 하나의 일관된 관리 정책 프레임을 제시하는 방식으로 기업을 도울 수 있다고 설명했다. 즉, 레이크하우스로 기업의 데이터 요건을 충족하고 저비용, 고혁신을 지원할 수 있다는 것이다.

아태 지역의 90% 비즈니스 성장과 80% 인력 확대와 더불어 데이터브릭스 코리아 역시 직원 규모가 2배 이상 성장했다. 또한 지난 한 해 파트너 생태계가 3배 이상 확대되는 성과를 거뒀다.
ITWorld

데이터브릭스 코리아 장경운 팀장 ⓒ Databricks

<이미지를 클릭하시면 크게 보실 수 있습니다>



이후 장경운 솔루션즈 아키텍트 팀장이 데이터브릭스 솔루션을 상세히 설명했다. 장경운 팀장이 강조한 키워드는 ‘협업, 간결한 플랫폼, 오픈’이라는 3가지 키워드를 적극 활용했다. 장경운 팀장은 “데이터브릭스의 데이터 플랫폼은 모든 데이터 유형을 지원하고, 데이터 엔지니어링/데이터분석/데이터 과학 등 모든 워크로드에서 통합적 경험을 제공하고, 정형/비정형 데이터 등 다양한 자산을 일관성 있게 통합 관리한다. 또한 모든 규모에서 가격 대비 성능이 강력하고, 실시간 데이터와 오픈형 데이터 공유, 멀티 클라우드를 지원한다는 장점이 있어 최고의 데이터 플랫폼임을 자신한다”라고 설명했다.

장경운 팀장은 이후 최근 데이터브릭스가 공개한 새로운 AI 모델 돌리(Dolly)를 소개했다. 돌리는 인간과의 상호작용 기능이 있으면서도 데이터 요구량이 훨씬 적고, 단일 머신에서 3시간 내에 학습할 수 있는 새로운 AI 모델로, 데이터브릭스가 모든 조직에서의 LLM 역량 확보를 지원하겠다는 노력의 첫 걸음이다. 장경운 팀장에 따르면, 돌리는 중앙화된 AI 플랫폼을 쓰지 않아도 기업 내부 데이터와 자산을 오픈 모델에 추가해야 한다는 부담 없이, 자체 내부 모델로 빌드할 수 있다는 장점이 있다. 또한 오픈 형태로 개방해 더 많은 기여자에게 공유되고 추가 지식을 학습해 나감으로써 성능을 개선할 수 있다는 오픈 커뮤니티의 저력을 기대할 수 있다.

장정욱 대표는 아모레퍼시픽, 무신사, 데브시스터즈, G마켓, 핀다, 이마트24, 디지털 마케팅 솔루션 기업 메조미디어 등 레이크하우스 플랫폼을 통해 혁신과 비용 최적화를 이룬 다양한 국내 사례를 소개했다.

아모레퍼시픽의 이경희 팀장은 “데이터브릭스의 레이크하우스 플랫폼을 선택한 이유는 조직 내 데이터 사일로를 없애고, 수집되는 데이터의 양과 복잡성이 증가하는 가운데서도 비용을 최적화할 수 있는 통합 데이터 플랫폼을 원했기 때문이다. 우리의 목표는 레이크하우스를 기반으로 구축된 글로벌 데이터 뷰티 플랫폼으로 거듭나는 것”이라고 설명했다.

무신사의 유환성 데이터플랫폼 팀장은 “무신사의 데이터 기반 의사결정을 위해 데이터브릭스 레이크하우스를 도입했다. 이로써, 데이터 전문가부터 데이터 기술이 없는 사용자에 이르기까지 조직 전체가 데이터 기반의 의사결정을 내릴 수 있는 환경을 마련했다. 데이터 접근성을 바탕으로 무신사의 온라인 쇼핑 경험을 재정의할 수 있게 됐다”라고 말했다.

G마켓의 서대홍 플랫폼 테크놀로지 매니저는 “다양한 선택지가 있었음에도 데이터브릭스를 도입한 이유는 데이터브릭스의 솔루션만이 가진 강력한 성능과 비용 효율성 때문이다. 데이터브릭스 레이크하우스는 확장 가능하고 통합된 클라우드 데이터 아키텍처로, 나날이 증가하는 빅 데이터 요구사항을 충족하는 동시에 총소유비용(TCO)은 낮춰주는 합리적인 솔루션”이라고 말했다.

핀다의 서희 CTO(최고기술책임자)는 "데이터브릭스 솔루션으로 분산된 데이터 분석 환경과 도구를 일원화하여 개인정보 관리 및 데이터 통합 가시성을 위한 데이터의 거버넌스를 확보할 수 있게 됐다. 뿐만 아니라, 데이터 레이크와 데이터 웨어하우스 간에 중복된 인프라나 데이터를 제거함으로써, 비용 효율적인 데이터 및 분석 환경에서 운영 효율성을 개선하고 있다”라고 말했다.

이마트24의 이재경 CIO(최고정보책임자)는 “데이터브릭스의 레이크하우스 플랫폼과 우수한 글로벌 고객 레퍼런스는 리테일 혁신의 미래에서 데이터와 AI가 가진 힘을 잘 보여준다. 레이크하우스를 통해 데이터와 AI로 고객에게 새로운 경험을, 경영주에게 혁신적인 점포운영 서비스를 제공하여 디지털로 차별화된 이마트24를 실현할 수 있는 기반을 마련하게 되어 매우 기쁘게 생각한다”라고 말했다.

장정욱 데이터브릭스 코리아 대표는 “한국의 많은 비즈니스 리더가 데이터와 AI가 지닌 가치를 인식하고, 이를 활용해 비즈니스 혁신을 추진하고 있는 중요한 시점에 데이터브릭스의 한국 비즈니스를 이끌게 되어 영광이다. 2023년에는 더 많은 조직이 데이터 사일로와 비효율성을 제거하고, 데이터와 차세대 AI 기술이 지닌 잠재력을 최대한 발현할 수 있는 통합 데이터 플랫폼으로 전환하게 될 것”이라고 설명했다.

한편, 데이터브릭스 코리아는 오는 4월 25일 데이터+AI 월드 투어(Data+AI World Tour)를 국내에서 개최한다. G마켓, 이마트24, 데브시스터즈, (주)한화, 메조미디어, 잡코리아, 핀다, 위버스 컴퍼니, 무신사 등을 포함한 기업들이 연사로 나서 데이터브릭스를 활용해 이룬 데이터 혁신의 여정을 공유할 예정이다. 동시에 데이터와 AI를 활용해 업계를 혁신하고 선도하는 데이터 팀을 선정하는 ‘제1회 데이터브릭스 코리아 고객 어워즈’도 진행된다.
erin_hur@idg.co.kr

허은애 기자 editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.