업타임 인스티튜트(Uptime Institute)의 2025년 연례 장애 분석(Annual Outage Analysis 2025) 보고서에 따르면, 전력 관련 장애는 여전히 주요 데이터센터 다운타임의 가장 큰 원인으로 전체 사례의 54%를 차지했다. 네트워크와 IT 시스템 관련 문제는 각각 12%와 11%의 비율로 집계됐다. 특히 네트워크·연결성 문제는 전체 IT 서비스 전반에 걸친 장애 중 30%를 차지한 것으로 나타났다.
업타임이 다수의 보고서와 2024년과 2025년에 걸쳐 실시한 설문조사를 기반으로 분석을 진행한 결과, 데이터센터 장애 발생 빈도는 점차 감소하는 것으로 나타났다. 2024년 설문조사에 따르면, 지난 3년 내 장애를 경험한 운영자는 전체의 53%였다. 이는 2023년 55%, 2022년 60%, 2021년 69%, 2020년 78%와 비교했을 때 지속적으로 줄어든 수치다.
업타임 인텔리전스 리서치(Uptime Intelligence Research) 설립자 앤디 로렌스는 성명을 통해 “전반적인 장애 발생 속도는 둔화되고 있다. 데이터센터 운영자는 전력망 제약, 이상 기후, 네트워크 업체의 장애, 외부 소프트웨어 문제 등 통제 불가능한 외부 위험에 직면하고 있다. 이처럼 위험 환경이 더 불안정해졌음에도 불구하고 개선은 이뤄지고 있다”라고 말했다.
장애 발생 빈도는 줄어들고 있지만, 여전히 전력 문제가 데이터센터 운영에 영향을 미치는 핵심 요인으로 꼽힌다. 전력 장애의 주요 원인으로는 다음과 같은 항목들이 보고됐다.
- - UPS(Uninterruptible Power Supply) 고장 : 42%
- - 전원 전환 스위치 고장 : 36%
- - 발전기 고장 : 28%
- - 전원 경로 간(A/B) 전환 스위치 고장 : 23%
- - 전력 제어 시스템 고장 : 15%
- - 단일 전원 연결 IT 장비 고장 : 11%
- - PDU(Power Distribution Unit) 고장 : 11%
업타임 인스티튜트 CTO 크리스 브라운은 보고서 내용을 공유하는 웨비나에서 “전력은 지금까지도 가장 큰 장애 원인이었고, 당분간도 그럴 것이다. 이 점은 당연하게 받아들여야 한다. 데이터센터의 모든 장비는 시설 장비든 IT 장비든 작동을 위해 전력이 필요하다. 전력은 매우 냉정한 요소로, 대응 가능성 측면에서 보면 꺼져 있거나 켜져 있거나 둘 중 하나일 뿐”이라고 설명했다.
또 다른 긍정적인 점은 2024년 보고된 장애 중 ‘심각’ 또는 ‘중대’로 분류된 사례는 전체의 9%에 불과한 것으로 나타났다. 로렌스는 “전체 응답자 중 절반 이상이 지난 3년 동안 장애를 경험했다고 답했지만, 이 중 약 3/4은 심각하지 않은 수준의 장애였다”라고 설명했다.
그럼에도 불구하고 2024년에는 IT 및 네트워크 관련 장애가 증가한 것으로 나타났다. 업타임 인스티튜트의 분석에 따르면, 이런 증가의 주요 원인은 IT 및 네트워크 구조의 복잡성 심화였다. 특히 변경 관리 미흡과 구성 오류가 주요 요인으로 지목됐다.
로렌스는 “분산 서비스나 클라우드 서비스 환경에서는 네트워크 장비가 전체 네트워크에 걸쳐 복제될 때 연쇄적인 장애가 발생하는 경우가 특히 많다. 하나의 장비에 장애가 발생하면 트래픽이 한 방향으로 몰리면서 다른 데이터센터의 수용 용량을 초과해 또 다른 장애로 이어지기도 한다”라고 덧붙였다.
주요 네트워크 장애의 가장 흔한 원인으로는 다음과 같은 항목이 보고됐다.
- - 구성/변경 관리 실패 : 50%
- - 외부 네트워크 업체 장애 : 34%
- - 하드웨어 고장 : 31%
- - 펌웨어·소프트웨어 오류 : 26%
- - 회선 단선 : 17%
- - 악의적 사이버 공격 : 17%
- - 네트워크 과부하·혼잡 : 13%
- - 방화벽·라우팅 테이블 손상 : 8%
- - 기상 요인에 따른 사고 : 7%
구성 오류 및 변경 관리 문제는 주요 IT 시스템·소프트웨어 장애 원인 중 62%를 차지하는 것으로 나타났다. 특히 소프트웨어 관련 장애 대부분은 변경 작업에서 비롯된 문제였다. 변경 작업과 관련된 혼란은 지속적으로 소프트웨어 장애의 주요 원인으로 꼽힌다.
보고서에 따르면, 인적 오류도 데이터센터 운영에서 지속적인 과제로 꼽히고 있다. 인적 실패의 가장 큰 원인은 데이터센터 직원들이 정해진 절차를 준수하지 않은 데 있다. 이는 2023년 대비 약 10%p 증가한 것으로 나타났다.
브라운은 “UPS 모듈이 제조 결함이나 다른 문제로 고장 나는 건 운영자가 통제할 수 없는 영역이다. 하지만 인적 오류는 전적으로 운영자가 통제할 수 있는 문제다”라고 말했다. 주요 인적 오류로 인한 장애의 가장 흔한 원인으로는 다음과 같은 항목이 지목됐다.
- - 절차 미준수 : 58%
- - 잘못된 운영 프로세스 및 절차 : 45%
- - 설치 과정 문제 : 24%
- - 서비스 중 발생한 문제 : 19%
- - 인력 부족 : 18%
- - 예방 점검 주기 문제 : 16%
- - 데이터센터 설계 오류 또는 누락 : 14%
브라운은 데이터센터 운영자가 운영 프로세스를 수립하고 적절한 교육을 제공하는 데 어려움을 겪고 있다고 설명했다. 특히 데이터센터의 급속한 확장 속도와 신규 인력의 경험 부족이 문제를 악화시키고 있다고 분석했다. 하지만 업타임은 인적 오류가 장애 예방 측면에서 가장 쉽게 개선할 수 있고 비용도 적게 드는 영역이라고 강조했다.
로렌스는 “가장 쉽게 개선할 수 있는 부분이자, 장애 가능성을 줄이는 데 가장 비용이 적게 드는 방법일 것이다. 교육 강화, 절차 개선, 절차에 대한 명확한 전달 등이 대표적인 해결책이다”라고 덧붙였다.
dl-itworldkorea@foundryco.com
Denise Dubie editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지
