컨텐츠로 건너뛰기
검색
디지털데일리 언론사 이미지

케이투스, AI 데이터센터 운영·관리 플랫폼 ‘KS매니지’ 고도화

디지털데일리 이안나 기자
원문보기

케이투스, AI 데이터센터 운영·관리 플랫폼 ‘KS매니지’ 고도화

서울맑음 / -3.9 °



[디지털데일리 이안나기자] 인공지능(AI) 및 액체냉각 솔루션 전문기업 케이투스는 AI 데이터센터 운영·관리 플랫폼 ‘KS매니지(KSManage)’를 업그레이드했다고 20일 밝혔다. 새 KS매니지는 부품·서버·캐비닛·클러스터·AI 작업까지 단계별로 운영 현황을 통합적으로 파악할 수 있도록 설계됐다.

케이투스에 따르면 강화된 KS매니지는 장애 원인 식별 정확도를 높이고 사고 대응 속도를 개선하며 사전 예방형 운영을 지원하는 데 초점을 맞췄다. 복잡한 장애 분석, 부품 고장률 증가, 애플리케이션 의존성 확대, 운영·유지보수 대응 지연과 같은 운영 이슈를 관리하는 데 활용할 수 있도록 구성됐다.

국내에서도 AI 모델 학습과 추론 수요 증가로 고밀도 그래픽처리장치(GPU) 서버와 대규모 AI 클러스터를 운영하는 데이터센터가 늘고 있다. 높은 전력 비용과 제한된 부지, 24시간 무중단 운영 요구가 결합된 환경에서 장애 조기 탐지와 자원 관리 가시성이 중요해지고 있다. 케이투스는 KS매니지가 이러한 운영 요구를 지원하는 플랫폼이라고 설명했다.

업그레이드된 KS매니지는 실시간 3D 시각화 기반 모니터링 기능을 제공한다. GPU·CPU 사용률, 전력 소비, 네트워크 대역폭, 스토리지 상태 등 주요 지표를 수집해 이벤트 로그와 함께 분석하며, 자동 토폴로지 탐색 기능을 통해 노드 간 워크로드 흐름을 시각적으로 확인할 수 있도록 했다. 회사 측은 이를 통해 장애 원인 분석과 대응 효율이 개선될 수 있다고 밝혔다.

또한 GPU와 스토리지 등 핵심 부품의 성능 추이를 분석해 이상 징후를 조기에 감지하는 예측 기능을 포함했다. 케이투스는 최대 7일 전 고장 가능성을 예측해 계획되지 않은 다운타임을 줄이고, 유지보수 일정 수립에 활용할 수 있다고 설명했다.

운영 자동화 측면에서는 장애 감지, 원인 분석, 대응 및 복구 과정을 자동화하는 기능을 적용했다. 지식 그래프와 시계열 이상 탐지 기술을 활용해 자동 백업 성공률 99.8%, 5분 이내 최대 90% 수준의 장애 원인 자동 식별, 운영 효율 최대 4배 개선 등을 제시했다. 스토리지 용량 리스크를 최대 3일 전에 예측하고 자동 격리·복구 체계를 적용해 총소유비용(TCO) 절감과 평균 복구 시간(MTTR) 단축을 목표로 한다.

케이투스는 “KS매니지를 포함한 AI 데이터센터 운영 솔루션의 국내 공급을 확대하고 국내 클라우드 사업자 및 AI 인프라 운영 기업과 기술 협력 및 파트너십을 추진할 계획”이라고 밝혔다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -