컨텐츠 바로가기

이슈 IT기업 이모저모

화재 징후 포착 못한 SK C&C, 판교 센터에 올인한 카카오… “재난 상황 대비 못한 인재”

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
조선비즈

이종호 과학기술정보통신부 장관이 6일 오후 서울 종로구 세종대로 정부서울청사에서 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 있다. /뉴스1

<이미지를 클릭하시면 크게 보실 수 있습니다>



정부가 SK C&C 판교 데이터센터 화재와 카카오 먹통 사태에 대해 조사한 결과, 이들 회사의 미흡한 재난 대응 시스템이 피해를 키운 것으로 확인됐다. 데이터센터 전체가 일시에 불능이 되는 대형 재난 상황에 대비하지 못했던 사실상의 인재(人災) 라는 것이다.

예컨대 SK C&C의 화재 모니터링 시스템(BMS)은 화재 직전까지도 제대로 작동하지 않았다. 그간 SK C&C는 화재에 대비한 모의 훈련도 진행하지 않았다. 카카오는 서비스 핵심 기능이 판교 데이터센터에 집중돼 있어 사고 시 즉각 영향을 받았고, 복구 시간도 늦어졌다. 장애 탐지·전파·복구와 관련해서도 기본 프로세스만 정해두고 있었을 뿐 각 단계별 체계화, 자동화는 미흡했던 것으로 확인됐다.

정부는 이번 데이터센터 화재 사건과 관련해 SK C&C와 카카오, 네이버 3사에 대해 한 달 이내에 주요 사고원인에 대한 개선 조치와 향후 계획을 수립하도록 하겠다는 계획이다.

◇부실했던 SK C&C 화재대응 시스템, 카카오는 판교에만 집중

6일 과학기술정보통신부는 방송통신위원회, 소방청과 함께 지난 10월15일 SK C&C 판교 데이터센터 화재와 카카오 · 네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다. 과기부에 따르면 이날 화재는 지하3층 배터리실에서 시작됐다. 그런데 화재 발생 직전까지 배터리 온도 등을 모니터링하는 시스템(BMS)이 이상 징후를 포착하지 못했던 것으로 확인됐다.

이종호 과기정통부 장관은 이날 브리핑에서 “화재가 나기 전까지 정상 온도였다고 하면 결과적으로는 온도 센서 하나 만으로는 화재를 감지하기 부족한 것 아니냐는 판단을 했다”며 “향후에는 다양한 방법으로 화재를 일찍 파악할 수 있는 방법들을 강구해야 할 것으로 본다. 대책 마련에 포함될 것으로 예상된다”고 말했다.

홍진배 과기정통부 네트워크정책실장도 “BMS의 오작동 가능성도 있어 보인다”며 “리튬이온배터리는 발화가 됐지만 BMS 자체는 일정수준을 유지하고 있었다”고 했다. 그러면서 “BMS 하나만 믿고 있기에는 굉장히 위험한 상황이기 때문에 다중화 체계로 해야 한다는 필요성을 알게 된 계기가 됐다”며 “리튬이온배터리가 터지기 전에 가스를 통제하거나, 열화상 카메라 등 다른 시스템으로 감지하는 등 조기에 대응할 수 있는 체계가 필요하다”고 밝혔다.

아울러 당시 화재가 발생했을 때 격벽 공간에 있던 일부 무정전전원장치(UPS)도 손상돼 작동을 멈췄는데, UPS가 리튬이온배터리실과 물리적으로 분리되지 않은 공간에 배치됐다는 구조적인 문제도 지적됐다.

리튬이온 배터리는 화재 특성 상 가스 소화가 어려워 초기 진압이 더욱 어렵다. 문제는 SK C&C가 2016년 리튬이온배터리를 설치한 이후 현재까지 특화된 방화 조치를 하지 않았다. 여기에 살수 상황, 발화 구역 등 실제 화재 수준을 반영한 세부 대응계획과 모의 훈련도 하지 않았다는 점이다.

조선비즈

판교 데이터센터 화재 개요도./과기정통부 제공

<이미지를 클릭하시면 크게 보실 수 있습니다>



결국 화재 진화 과정에서는 살수가 필요했는데, 살수로 인한 2차 피해가 우려되는 특정 구역이나 차단 스위치를 급박한 상황에서 빠르게 식별할 수 없었던 것으로 조사됐다. 이 때문에 전체 전력 차단까지 이어졌고 피해를 키웠다.

카카오톡, 다음 등 카카오 서비스는 물론 각 서비스 구동 초기 단계에 필요한 인증 등 핵심 기능까지 판교 데이터센터에 집중됐던 점도 복구가 늦어진 원인으로 꼽혔다. 과기정통부는 “카카오는 그동안 일부 서버나 네트워크 등 오류에 대비한 재난 대비 훈련 등은 해왔지만 이번처럼 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했다”고 밝혔다.

네이버는 데이터센터 간 이중화 조치를 했기 때문에 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 생겼다. 주요 서비스·기능 대부분은 약 20분~12시간 내 정상화됐다.

조선비즈

판교 SK C&C 데이터센터 화재 현장. 발화 지점인 지하 3층 전기실의 배터리가 불에 타 있다./이기인 경기도의원 페이스북 캡처.




◇ 향후 조치 계획, 1개월 내 보고토록 시정명령

서비스 장애 사태는 지난 1일 여야 합의로 국회 과방위를 통과한 ‘카카오 먹통 방지법’으로 이어졌다. 카카오 등의 데이터센터 임차인에게도 데이터 보호 조치와 보고 의무를 부여하는 ‘정보통신망 이용촉진 및 정보보호법 개정안’, 부가통신사업자도 사고 발생 시 국가 재난관리 시스템에 따라 대응하라는 ‘방송통신발전기본법’ 등이다.

이날 브리핑에서 이 장관은 “가능한 이달 안으로 좀 더 진전이 있기를 바라고, 빨리 발효될 수 있도록 과기정통부에서 최선을 다해서 지원하겠다”며 “디지털서비스 장애가 국민들에게 큰 피해를 준다는 점을 절실히 느낄 수 있었고 엄중하게 바라볼 필요가 있다. 국민들이 안정적으로 디지털서비스를 받을 수 있도록 제도적으로 개선하려고 하고 있다”고 말했다.

과기정통부는 이날 SK C&C, 카카오, 네이버 등에 대해 1개월 이내로 지난 화재와 관련한 주요 원인에 대해 개선 조치를 하거나 앞으로의 계획을 수립해 방송통신재난대책본부에 보고하도록 했다.

우선 SK C&C에 대해 배터리모니터링시스템 계측정보 등 관리 강화 방안과 배터리 모니터링 시스템 외의 다양한 화재감지 시스템 구축 방안을 수립하도록 했다. 또 리튬이온 배터리 화재 시 필요한 소화설비를 구축하도록 하고, 불가능할 경우 대안을 마련하도록 했다. 배터리와 기타 전기설비에 대해서는 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보할 것을 요구했다.

또 화재 등 재난 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고 재난 현장에 직접 진입하지 않고도 해당 구역의 전력을 차단할 수 있도록 다양한 방안을 수립할 것을 요구했다. 또 현실적인 재난대응 시나리오를 개발하고 세부 훈련 계획을 수립해 모의 훈련을 실시하도록 했다.

조선비즈

남궁훈 전 카카오 대표와 홍은택 대표가 지난 10월 19일 경기 성남시 카카오판교아지트에서 데이터 센터 화재로 인한 대규모 먹통 사태와 관련해 대국민 사과를 하고 있다. /연합뉴스

<이미지를 클릭하시면 크게 보실 수 있습니다>



카카오에 대해서는 운영 및 관리도구를 데이터센터 간 매우 높은 수준으로 다중화할 것을 요구했다. 또 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시하도록 했다. 신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구 방안도 수립하도록 했다. 아울러 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계도 구축할 것을 요구했다. 또 이번 장애와 관련된 국민 피해를 구제하기 위해 원칙과 기준을 설정하고, 보상 계획을 수립하도록 했다.

네이버에 대해서도 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선방안을 마련하고, 모의 훈련을 실시할 것을 요구했다.

변지희 기자(zhee@chosunbiz.com)

<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.