컨텐츠 바로가기

04.25 (목)

[종합] SK㈜ C&C·카카오에 개선안 통보했다지만...배터리 화재 원인은 아직도 '불명'

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

과기정통부, 카톡 먹통 재발 방지 위한 행정지도 내려...내년 1분기 법제화

SK㈜ C&C에는 배터리 모니터링, 데이터센터 안전 설계 등 미흡 통보

카카오는 부실한 이중화, 주요 서비스 판교 집중 등 지적 받아

아주경제

디지털서비스 장애 조사결과 발표하는 이종호 장관 (서울=연합뉴스) 김승두 기자 = 이종호 과학기술정보통신부 장관이 6일 정부서울청사 브리핑실에서 SK C&C 판교데이터센터 화재 및 카카오, 네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 있다. 2022.12.6 kimsdoo@yna.co.kr/2022-12-06 14:11:15/ <저작권자 ⓒ 1980-2022 ㈜연합뉴스. 무단 전재 재배포 금지.>

<이미지를 클릭하시면 크게 보실 수 있습니다>



"데이터센터 안전과 서비스 운영에 관련해서 이중화 조치가 전체적으로 미흡했다."

정부가 SK㈜ C&C 판교 데이터센터 화재로 인해 촉발된 카카오톡 '먹통' 사태에 대한 조사 결과를 6일 발표했다.

이날 과학기술정보통신부는 방송통신위원회·소방청과 함께 SK㈜ C&C 판교 데이터센터 화재와 카카오 등 부가통신서비스 장애에 대한 조사 결과를 발표하고, SK㈜ C&C와 카카오에 1개월 내로 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 제출하라는 행정 지도를 했다. 두 회사가 행정 지도는 강제로 따를 의무는 없지만, 국민의 이목이 쏠린 사건에 대한 정부 후속 조치인 만큼 이를 제대로 이행할 것으로 과기정통부는 기대하고 있다.

◆BMS 미흡했던 SK㈜ C&C...화재 이상 감지 못했다

조사에 따르면 SK㈜ C&C 판교 데이터센터는 배터리 온도 등을 모니터링하는 배터리 모니터링 시스템(BMS)을 갖추고 있었으나, 화재 발생 직전까지 화재에 대한 이상징후는 관찰되지 않았다. 화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 화재 특성상 초기 진압에 한계가 있었다. SK㈜ C&C는 2016년 리튬이온 배터리 설치 후 화재 전까지 리튬이온 배터리에 특화된 방화 조치도 하지 않았다.

또, SK㈜ C&C 판교 데이터센터는 리튬이온 배터리가 일부 UPS(무정전 전원 장치)와 완벽히 분리되어 있지 않아 배터리 화재 열기 등으로 인해 UPS 작동이 중지됐고, 일부 전원공급도 중단됐다. 이후 배터리 상단에 위치한 전력선이 화재로 인해 손상됐고, 화재 진압에 사용되는 물로 인한 누전 같은 2차 피해 우려가 있어 데이터센터 전체 전력 차단을 결정했다.

이밖에 SK㈜ C&C 판교 데이터센터는 각 UPS 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계를 갖추고 있었으나, 화재 등으로 인해 특정 UPS에서 동시에 장애가 일어나면 UPS에서 전력을 공급받는 서버에 대한 전력 공급 중단이 불가피한 구조였다. 배터리 화재 진화를 위한 살수가 필요한 상황에서 2차 피해가 우려되는 특정 구역과 차단 스위치를 단시간 내에 찾을 수 없어서 선별적 차단 조치도 할 수 없었다. 화재 대비 매뉴얼은 있었으나 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획과 모의훈련은 없었다.

◆이중화 시스템 무용지물이었던 카카오, 중요 서비스 판교에 모아놔

카카오톡, 카카오T 등 주요 서비스에서 최대 127시간 33분간 장애를 일으킨 카카오는 서비스 기능을 5개의 '레이어(서비스 구역)'로 구분하고 판교 데이터센터(액티브 역할)와 다른 데이터센터 간 동작-대기(액티브 스탠바이) 체계로 시스템을 이중화했으나, 이번 사고에선 스탠바이 시스템이 그 역할을 제대로 하지 못했다.

이는 스탠바이 서버를 액티브 역할로 전환하기 위한 '운영 및 관리도구'가 판교 데이터센터에 이중화되어 있고 다른 데이터센터는 이중화되어 있지 않아 판교 데이터센터의 액티브 서버가 멈추면 장애 복구가 어려운 구조였던 것에 따른 문제다.

또, 앱과 서비스 플랫폼 레이어도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않아 복구에 많은 시간이 걸렸다.

카카오톡, 다음 등 대부분의 서비스가 판교 데이터센터에 집중되어 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받는 구조였다. 특히 서비스 구동 초기에 필요한 카카오인증 등 핵심 기능이 판교에 집중되어 있어 계열사 서비스에서 장애가 일어나는 단초가 됐다.

이밖에 카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나, 단계별 체계화와 자동화가 미흡했다. 일부 서버, 네트워크 등 작은 오류에 대비한 재난 훈련은 했으나, 데이터센터 전체가 일시에 멈추는 대형 재난상황에는 대비가 부족했다.
아주경제

<이미지를 클릭하시면 크게 보실 수 있습니다>



◆과기정통부, SK㈜ C&C·카카오에 개선 방안 통보...1달 내로 이행 당부

과기정통부는 SK㈜ C&C에 데이터센터 화재 예방·탐지와 관련해서 △배터리 모니터링 시스템 계측정보 관리 강화 방안과 온도 센서에 의존하는 현 시스템을 개선할 수 있는 다양한 화재감지 센서 시스템을 구축할 것 △리튬이온 배터리 화재 시 필요한 소화설비를 가스 외에 살수 형태로 구축하고 불가능할 경우 대안을 마련할 것 등을 주문했다.

또, 화재 시에도 안정적인 데이터센터 전력공급을 위해 △배터리와 기타 전기설비 간 물리적 공간을 분리하고, 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보할 것 △화재 등 재난 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고 재난 현장에 직접 진입하지 않아도 해당 구역의 전력 차단 등 조치를 할 수 있는 방안을 수립할 것 △현실적인 재난대응 시나리오를 만들고 세부 훈련 계획 수립해 모의 훈련을 실시하고 결과를 정부에 보고할 것 등을 지시했다.

카카오에는 서비스 다중화 조치로써 △서비스 장애 복구 지연의 핵심 원인인 '운영 및 관리도구'를 데이터센터 간 액티브-액티브 상태로 만드는 등 매우 높은 수준의 다중화를 적용할 것 △카카오인증 등 핵심 기능은 더 높은 수준의 분산 및 다중화를 적용할 수 있는 방안을 수립할 것 등을 권고했다.

또, 재난대비 강화를 위해 △데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시하여 보고할 것 △장애 탐지-전파-복구 모든 단계의 복구 체계를 재점검해 자동화 기능 요소 발굴 등 개선 방안을 수립할 것 △신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구 방안을 수립할 것 등을 주문했다.

이밖에 이용자 고지 및 피해 구제 강화를 위해 △서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축하고 △장애와 관련된 국민 피해를 구제하기 위한 원칙과 기준을 설정하고 보상 계획을 수립할 것을 권고했다.

이러한 과기정통부의 요청에 SK㈜ C&C는 "배터리 모니터링 시스템을 포함해 다양한 화재 감지 및 대응 시스템 보강을 적극 검토하고 있고, 리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안도 준비 중이다"며 "배터리실 전력선을 재배치하는 등 구조적 안정성을 확보했고 대형 화재 상황을 고려한 재난대응 시나리오와 세부 훈련 계획도 수립하고 있다"고 전했다,

카카오도 "7일 이프 카카오 행사를 통해 서비스 장애 원인을 분석하고 인프라 투자 계획 등을 담은 재발 방지 대책을 공개할 예정"이라며 "과기정통부의 시정 요구 사장 중 보강할 부분이 있다면 적극적으로 검토해 반영하겠다"고 밝혔다. 카카오는 이번 장애로 인해 총 10만5116건의 피해를 접수했고, 이 가운데 유료 서비스 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스 피해는 1만3198건이 접수됐다.

이종호 과기정통부 장관은 "데이터센터와 디지털 서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼치는 만큼 이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구 및 재발 예방에 최선의 노력을 다함으로써 디지털 서비스에 대한 국민 신뢰를 다시 회복해야 한다"며 "정부도 이번 사고를 계기로 주요 디지털 서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선 방안, 점검결과, 제도개선 등을 종합해 디지털 시대에 맞는 안정성 강화 방안을 마련함으로써 끊김 없는 디지털 서비스를 제공할 수 있는 디지털 위기관리 체계를 구축하겠다"고 밝혔다.

◆내년부터 데이터센터 안전 설계 의무 진다...배터리 화재 근본 원인은 아직도 '불명'

이날 과기정통부와 방통위는 카카오톡 먹통과 같은 디지털 재난을 막기 위한 실효성 있는 조치를 마련해 내년 1분기부터 시행할 계획이라고 밝혔다.

먼저 과기정통부는 두 회사가 제출한 조치 결과와 향후 조치계획에 재난 예방-대비-대응-복구 모든 단계별 재난관리체계 강화를 위한 전문가·사업자 의견과 법·제도 개선 사항을 더해 디지털 서비스 안정성 확보를 위한 종합적 개선 방안을 내년 1분기 중 수립할 계획이다.

이종호 장관은 SK㈜ C&C 등 데이터센터사업자(직접정보통신시설사업자)와 카카오 등 부가통신사업자를 재난관리에 관한 법규제망에 추가함으로써 주요방송통신사업자에 준하는 서비스 유지·관리 의무를 부여하겠다는 뜻을 드러냈다. 이 장관은 "국회 과방위를 통과한 카카오 '먹통 방지법(방발법, 정보통신망법, 전기통신사업법 개정안)'이 가능한 이번 달 내로 진전이 있기를 바라고 법안이 빠르게 발효될 수 있도록 최선을 다해 지원하겠다"며 "SK㈜ C&C, 카카오 등 규모 있는 사업자는 법체계를 적용하고, 일정 규모 이하 작은 업체는 진흥을 위해 규제를 적게 받고 지원을 받는 형태가 될 것"이라고 설명했다.

또, 과기정통부는 지난 2020년 KT 강남 데이터센터 배터리 화재는 UPS와 배터리가 다른 층에 있어 별다른 피해 없이 진화된 반면 이번 SK㈜ C&C 판교 데이터센터는 UPS와 배터리가 같은 층에 있어 피해가 커진 것에 주목하고 개선 방안에 '데이터센터 안전 설계 의무'를 추가할 것임을 시사했다.

홍진배 과기정통부 네트워크정책실장은 "이번 데이터센터 화재에서 카카오 서비스가 멈춘 이유로 UPS, 배터리, 전력선이 층이나 격벽 등으로 완벽히 분리되지 않은 데이터센터 설계 구조로 인해 진화 당시 전력을 차단할 수밖에 없었던 것이 꼽힌다"며 "때문에 앞으로 지어질 데이터센터는 (화재 등으로부터) 더 안전한 설계가 필요하다는 점에 공감하고 개선 방안에 데이터센터 안전 설계를 포함시킬 것"이라고 밝혔다. 구체적인 안전 설계 수준 및 방식은 지속해서 검토할 예정이다.

방통위도 카카오톡 먹통으로 인한 피해접수 전담 창구를 개설하고 피해보상 협의체를 마련해 실질적인 피해 구제 방안을 수립하고, 향후 유사한 통신장애 발생 시 유료 가입자뿐 아니라 무료 이용자까지 아우르는 실효성 있는 피해 구제 법령과 이용약관 등을 마련할 계획이다.

다만 이날 발표에선 정부가 SK㈜ C&C 판교 데이터센터 화재 경과와 대책만 발표하고 화재의 근본적인 원인에 대한 설명은 없었다는 비판이 나온다. 불이 시작된 리튬이온 배터리의 정확한 화재 원인이 아직 규명되지 않았기 때문이다.

소방청 관계자는 "소방청에서 10월 15일 화재 발생 당시 1차 화재 조사를 했고, 이어 16~17일 국립과학수사연구원, 경기남부경찰청 분당경찰서 등과 2차 합동조사를 했다. 당시에는 3주 정도면 리튬이온 배터리의 발화 원인을 찾을 수 있을 것으로 예상했으나, 현재는 화재 원인의 발표 시기를 특정할 수가 없다"며 "증거물인 리튬이온 배터리는 국과수가 수거해 갔고, 그 뒤 수사 사항은 (소방청도) 통보받지 못하고 있는 상황"이라고 밝혔다.

아주경제=강일용 기자 zero@ajunews.com

- Copyright ⓒ [아주경제 ajunews.com] 무단전재 배포금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.