컨텐츠 바로가기

11.21 (목)

“IT 서비스 중단의 주요 원인은 네트워크 및 연결 문제” 업타임 인스티튜트 조사

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
업타임 인스티튜트(Uptime Institute)의 2024년 연례 장애 분석(Annual Outage Analysis 2024) 보고서에 따르면, 네트워크 및 연결 문제가 IT 서비스 장애의 주요 원인으로 나타났다. 특히 전력 문제가 가장 흔한 이유로 지목됐다.
ITWorld

ⓒ Getty Images Bank

<이미지를 클릭하시면 크게 보실 수 있습니다>



업타임 인스티튜트의 2024년 데이터센터 복원력 설문조사(Data Center Resiliency Survey 2024)에서는 응답자 442명 중 31%가 IT 서비스 관련 중단의 가장 일반적인 원인으로 네트워킹 및 연결 문제를 지적했고, 22%의 응답자는 IT 시스템·소프트웨어를 근본 원인으로 지목했다. 그 밖에 전력(18%), 냉각(7%), 서드파티 IT 서비스(10%) 등이 IT 서비스 관련 중단의 일반적인 원인으로 꼽혔다.

기업 네트워크와 데이터센터에 가장 큰 영향을 미치는 요인을 파악하기 위해 업타임 인스티튜트는 공개적으로 보고된 가장 큰 장애를 재검토하고 IT 서비스 관련 장애와 데이터센터 다운타임 전반에 대한 설문조사를 실시했다. 조사 결과, 공개적으로 보고된 IT 서비스 중단의 주요 원인은 다음과 같다.
  • IT(소프트웨어·구성) : 23%
  • 네트워크(소프트웨어·구성) : 22%
  • 전력 : 11%
  • 사이버 공격·랜섬웨어 : 11%
  • 광섬유 : 10%
  • 화재 : 9%
  • 냉각 : 6%
  • 네트워크(케이블) : 4%
  • 공급자·파트너 문제 : 2%
  • 용량·수요 : 1%
  • 기타 : 1%

업타임 인스티튜드 리서치 이사 앤디 로렌스는 보고서 결과를 공유하는 웨비나에서 "IT 소프트웨어가 가장 큰 원인임을 확인했다. 하지만 광 연결에 네트워크 소프트웨어와 구성을 추가하면 이것이 가장 큰 단일 원인"라고 말했다.

업타임 인스티튜트의 '2024 연례 장애 분석' 보고서는 지난 2023년 2·3분기에 850명의 응답자를 대상으로 실시한 업타임 인텔리전스 연례 글로벌 데이터센터 설문조사(Uptime Intelligence Annual Global Data Center Survey), 2024년 1분기에도 850명의 응답자를 대상으로 실시한 업타임 인텔리전스 데이터센터 복원력 설문조사(Uptime Intelligence Data Center Resiliency Survey), 2016년부터 2023년까지 750건 이상의 장애를 모니터링한 업타임 인텔리전스 공공 장애 추적(Uptime Intelligence Public Outage Tracking) 보고서의 데이터를 통합한 내용을 담았다.

보고서 집필팀은 전반적인 가동 중단 빈도와 심각도는 지속해서 감소하고 있지만, 사이버 관련 사고가 증가하고 있으며 "가장 심각한 가동 중단 대부분은 광범위하고 심각한 피해를 야기하는 원인이 되고 있다"라고 설명했다.

로렌스는 "사이버 공격과 랜섬웨어가 심각한 장애의 11%를 차지할 정도로 빠르게 증가하는 원인인 점을 확인했다. 랜섬웨어 공격은 보통 며칠 동안 지속되며, 일부는 몇 주 동안 지속되기도 한다는 특징이 있다. 드물게는 피해 기업이 비즈니스를 복구하지 못하는 경우도 있으므로, 이는 매우 심각한 새로운 범주에 속한다"라고 지적했다.

조사팀은 수집한 데이터를 통해 몇 년 전과 오늘날 사이버 공격의 차이점을 구분했다. 업타임에 따르면, 데이터센터에서 사용되는 제어 시스템 대부분은 이제 IP를 사용하므로 공격에 더 취약하고 가동 중단되는 요소에 포함될 가능성이 더 높다. 과거에는 OT 시스템 또는 운영 기술은 기업 네트워크와 분리된 자체 사설 직렬 통신을 사용했다. 오늘날 시스템에서는 악의적인 공격자가 액세스하면 운영을 중단시킬 수 있기 때문에 IP 지원 OT 시스템에서는 네트워크 보안이 더욱 중요해진다.

업타임 인스티튜드 CTO 크리스 브라운은 "주요 IP 시스템에는 보안 문제를 해결하기 위해 정기적으로 패치가 제공되지만, 냉각기나 발전기, 건물 관리 시스템 등은 보안 패치가 자주 제공되지 않고 보안 기능도 그다지 강력하거나 고급스럽지 않은 경우가 많다. 이런 장비는 일반적으로 네트워크가 1차 방어선이자 주요 방어선이다"라고 말했다.


가동 중단 심각도는 점차 개선 중

보고서에 따르면, 데이터센터 운영자 대부분이 지난 3년 동안 가동 중단이 없거나 미미한 수준이었다고 답했다. 이는 다운타임으로 인해 기업이 큰 피해를 입지 않았다는 의미다. 중단을 분류해 달라는 질문에 41%는 미미한 중단을 경험했다고 답했는데, 업타임은 이를 "기록 가능한 중단이지만 서비스에 미치는 영향이 거의 또는 전혀 없는 중단"으로 정의했다.

또 다른 32%는 사용자·고객·평판에 미치는 영향이 미미하거나 서비스 중단이 미미하다고 정의한 중단을 경험했다고 응답했다. 고객·사용자 서비스 중단을 초래했지만 재정적 영향은 미미하거나 전혀 없었으며, 평판 또는 규정 준수에 일부 영향을 미친 중대한 또는 다운타임으로 분류되는 중단을 경험했다고 답한 응답자는 1/5 미만(17%)으로 집계됐다.

6%는 서비스 또는 가동 중단, 재정적 손실, 규정 준수 위반, 안전 문제, 평판 손상 등 심각한 중단을 경험했으며 고객 손실 가능성도 있었다고 답했다. 나머지 4%는 서비스 또는 가동 중단으로 인해 심각한 장애를 경험했다고 답했다. 심각한 장애에는 막대한 금전적 손실과 안전 문제, 규정 위반, 고객 손실, 평판 손상 등이 포함된다.

로렌스는 "서비스 중단의 심각성이 개선되고 있다는 것에는 의심의 여지가 없다. 즉, 재정적 평판이나 기타 극단적인 결과를 초래할 수 있는 매우 심각하거나 심각한 범주에 속하는 중단의 비율이 낮아지고 있다"라고 말했다.

보고서 집필팀은 기업에 심각한 영향을 미친 몇 가지 공공 서비스 중단 사례를 지적했다. 예를 들어, 미국 연방항공청에서는 조종사 경보 시스템에서 실수로 삭제된 파일이 3만 개 이상의 항공편에 영향을 미쳐 주요 항공사의 주식에 영향을 미치는 등 IT 소프트웨어 구성 오류가 원인으로 지목된 가동 중단을 경험한 바 있다.

호주 통신 업체 옵터스(Optus)는 네트워크 문제로 인해 운송 지연이 발생하고 은행 업무에 문제가 발생했으며, 병원 전화선이 12시간 동안 중단돼 천만 명 이상의 사용자와 40만 곳 이상의 기업에 영향을 미치는 등 막대한 비용이 발생하는 장애를 경험했다.

미국의 케이블 TV 방속국 디시 네트워크(Dish Network)에서는 사이버 범죄자들이 중요 데이터를 암호화하는 랜섬웨어 사이버 공격으로 인해 약 30만 명의 사용자의 서비스가 중단되고 회사 주가가 6% 이상 하락했다.


지속되는 전력 문제

업타임 인스티튜트에 따르면, 데이터센터 설계와 이중화가 개선되었음에도 불구하고 전력이 데이터센터 가동 중단의 가장 큰 원인으로 계속해서 지목되고 있다. 응답자의 30%가 전력 문제로 인해 직접적인 가동 중단을 경험한 것으로 나타났다. 이 중 42%는 무정전 전원 공급 장치(UPS) 고장을 주요 원인으로 지적했다. 30%의 또 다른 주요 원인은 발전기와 관련한 것으로, 이 역시 지속적으로 문제가 되고 있다. 발전기 고장은 전력 관련 가동 중단의 28%를 차지했으며, 18%는 경로 간 전송 스위치(A/B) 고장이 가동 중단으로 이어졌다고 답했다.

브라운은 "모든 것은 전력을 필요로 한다. 전력은 매우 이분법적이기 때문에 전력 변동에 대한 허용 오차는 매우 작을 수 있다. 대부분 사람이 잊고 있는 한 가지는 테스트다. 이중화 시스템을 갖추고 있지만 정기적으로 테스트하지 않는다. 하지만 이런 시스템을 실제 조건에서 테스트하는 것이 중요하다"라고 강조했다.

또한 업타임 인스티튜트는 더 많은 기업이 물리적 사이트 이중화에 대한 노력을 강화하고 있음을 입증하는 긍정적인 데이터도 발견했다. 응답자 약 39%는 전력에 대한 이중화가 증가했다고 답했으며, 37%는 냉각에 대한 이중화가 증가했다고 응답했다. 코로케이션 및 데이터센터 제공업체도 전력(35%) 및 냉각(33%) 이중화를 늘렸으며, 클라우드·호스팅·SaaS 제공업체의 37%는 전력 이중화를, 33%는 냉각 이중화를 늘렸다고 답했다.


인적 오류도 빈번한 원인으로 지적

공개적으로 보고된 일부 서비스 중단의 경우 통신 및 클라우드 제공업체에 일부 책임이 있을 수 있지만, 응답자 약 40%는 서비스 중단을 인적 오류와 직접적으로 연관시킬 수 있다고 답했다. 예를 들어, 서비스 중단을 보고한 응답자 48%는 데이터센터 직원이 절차를 따르지 않아 서비스 중단이 발생했다고 답했다. 45%는 잘못된 직원 프로세스 또는 절차를 원인으로 지적했으며, 23%는 가동 중단을 유발하는 인적 오류의 원인으로 설치 문제를 꼽았다. 그외 기타 인적 관련 원인은 다음과 같다.
  • 서비스 중 문제 : 20%
  • 직원 부족 : 15%
  • 예방적 유지보수 빈도 문제 : 14%
  • 데이터센터 설계 또는 누락 : 10%

업타임 인스티튜트 리서치 애널리스트 더글러스 도넬란은 "거의 모든 가동 중단에서 인적 오류가 직간접적으로 또는 적어도 대부분의 가동 중단에서 인적 오류가 어느 정도 관여한다는 점에 주목할 필요가 있다. 사람이 시스템을 구축하거나 설치 또는 조합한 경우에는 본질적으로 어느 정도 장애가 발생할 수 있다"라고 설명했다.
editor@itworld.co.kr

Denise Dubie editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.