컨텐츠 바로가기

04.18 (목)

‘먹통 사태 원인’ 카카오 계열사만 187개인데, 재난 컨트롤타워 없었다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
조선비즈

왼쪽 상단부터 남궁훈 비상대책위원회 재발방지대책 공동 소위원장, 이확영 비상대책위원회 원인조사 소위원장, 이채영 비상대책위원회 재발방지대책소위원회 부위원장, 고우찬 비상대책위원회 재발방지대책 공동 소위원장./카카오

<이미지를 클릭하시면 크게 보실 수 있습니다>



지난 10월 SK C&C 판교 데이터센터 화재로 ‘127시간 30분’의 서비스 장애를 일으킨 카카오가 ‘먹통 사태’의 원인으로 미흡했던 이중화 조치와 위기에 대응할 컨트롤타워 부재를 꼽았다.

지난 6월 말 기준 카카오 계열사 수는 187개에 달하는데, 동시 다발적으로 발생한 장애에 대해 전체적인 조율과 협업을 지원하는 그룹 차원의 조직이 없었던 것이다. 이에 카카오는 위기관리를 전담하는 IT 엔지니어링 전문가 조직을 만들고, 재해복구 위원회를 신설하겠다는 계획이다. 서비스 지속성을 전담하는 부서도 별도로 만든다. 아울러 지난 5년간 투자 금액의 3배 이상 규모로 향후 5년간 투자를 확대하겠다는 목표다.

◇ “개발자들 최선 다했지만 그것만으로는 부족”

7일 카카오는 개발자 컨퍼런스 ‘이프 카카오 데브 2022′에서 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지대책을 공개했다. 지난 10월 15일 오후 3시19분 SK C&C 판교 데이터센터에서 화재가 발생한 후 카카오의 모든 서비스가 정상화되기까지는 127시간30분이 걸렸다. 비상대책위원회 원인조사 소위원장을 맡은 이확영 그렙 대표는 “이중화 문제와 더불어 위기 대응 과정에 미흡함이 있어서 모든 서비스가 복구 완료되기까지 상당한 시일이 소요됐다”고 말했다.

그는 카카오의 위기 대응과 관련해 “재해 초기에 컨트롤 타워가 부재했다”며 “카카오와 공동체, 그리고 개별 조직이 동시 다발적으로 장애에 대응했지만 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 세팅돼 있지 않았고, 서비스별로 개발자들이 최선을 다했지만, 그것만으로는 부족했다”고 밝혔다. 컨트롤타워 없이 각 계열사 개발자들이 각개전투 했다는 것이다.

카카오 계열사 수는 2013년 16개에 불과했지만 지난 6월 말 기준 187개(국내 134개)로 늘었다. 해마다 평균 13.5개 증가한 셈이다. 이 때문에 카카오가 문어발 확장에만 집중하고 데이터 안전과 위기 관리에는 소홀했던것 아니냐는 지적이 나온다. 올해 초 카카오는 ‘카카오 공동체 얼라인먼트센터(CAC)’를 만들어 계열사 내부통제에 들어갔지만 각 계열사에 대한 장악력은 약하다는 평가가 나온다. 창업 멤버들이 계열사 곳곳에서 회사 경영에 영향을 미치고 있기 때문에 CAC의 영향력이 적을 수 밖에 없다.

업계에서는 서버 유지와 보안을 위해서는 과감한 투자는 물론이고 관리 인력과 프로세스도 마련해야 한다는 지적이 나온다. 이날 남궁훈 비상대책위원회 재발방지대책 공동 소위원장(전 카카오 대표)은 “인프라 조직을 강화하고 안정적 서비스 환경을 마련하겠다”며 “카카오 내 IT 엔지니어링 전문가들로 전문 조직을 만들어 안정적인 서비스 환경을 만들고 투자하겠다. 기존 개발조직과는 분리해 별도 상위조직으로 두겠다”고 했다.

해당 조직은 고우찬 카카오엔터프라이즈 부사장이 이끈다. 고 부사장은 현재 남궁 소위원장과 함께 공동 소위원장을 맡고 있다. 그는 이날 컨퍼런스에서 “카카오 CEO 직할로 IT 엔지니어링 전담 조직을 확대 편성하는 방안을 검토 중이다”라며 “아직 구체적인 규모는 정해지지 않았지만 국내 최고의 IT 엔지니어링 전문가들을 적극 영입하겠다. 데이터센터, 클라우드개발 엔지니어 채용과 육성을 공격적으로 진행하겠다”고 했다.

조선비즈

국회 과학기술정보방송통신위원들이 방문했던 판교 SK C&C 빌딩 화재사고 발화지점 지하 3층 전기실에 비상 축전기가 화재로 전소돼 있다./더불어민주당 윤영찬 의원 페이스북

<이미지를 클릭하시면 크게 보실 수 있습니다>



아울러 “대규모 장애에 대비한 재해복구 위원회를 신설하겠다”며 “책임있는 인력으로 구성된 위원회에서 즉각적인 대규모 장애에 대한 대응을 할 수 있도록 하겠다”고 했다. 그는 “(이와 별도로)서비스의 연속성 확보를 최우선 임무로 하는 조직도 필요하다고 생각한다”며 “연속성 확보에 필수적인 항목을 추려내 실제로 지속적으로 운영, 발전될 수 있도록 하는 전담 조직을 준비하겠다”고 설명했다.

위기 관리 과정과 관련, 장애 대응을 위한 소통 채널에 혼선이 있었다는 지적도 나왔다. 이확영 소위원장은 “카카오는 사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 사용하고 있다”며 “해당 채널을 쓸 수 없을 때 중요 사항 전파와 의사결정을 위한 별도의 채널이 준비돼 있었어야 한다”고 지적했다. 또 “운영 관리 도구의 복구 인력이 부족했던 것과 이중화에 필요한 상면(공간)이 부족했던 것도 치명타였다”며 “평소 이중화나 장애대응체계를 갖추고 있었더라도 데이터센터 전체의 장애 상황을 가정하면 준비가 부족했다”고 했다.

◇”최근 운영도구 이중화는 완료, 빠른 시일 내 삼중화”

데이터센터 이중화와 관련된 부분도 미흡한 점으로 지적됐다. 이확영 소위원장은 “일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦어졌다”며 “서로 다른 데이터센터에 이중화돼 있다고 하더라도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교데이터 센터에만 설치돼 있었다”고 했다.

또 “사용자 서비스에 직접적으로 필요한 시스템 외에 서비스의 개발과 관리를 위한 운영 관리 도구가 필요한데, 이러한 도구들의 이중화가 미흡했다”며 “상대적으로 이러한 도구들의 안정성 확보에 소홀했다”고 말했다. 그러면서 “전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라가기 때문에 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발했다”고 덧붙였다.

조선비즈

PC용 카카오톡 오류 안내문. /뉴스1

<이미지를 클릭하시면 크게 보실 수 있습니다>



이에 카카오는 데이터센터 전체에 장애가 발생하더라도 모니터링과 장애탐지가 동작할 수 있도록 모니터링 시스템을 다중화하겠다는 방침이다. 이를 위해 메인 백본 센터를 현재의 두 곳에서 세 곳으로 확대하고, 데이터센터 간에 늘어날 트래픽에 대응할 수 있도록 확장성을 고려한 설비 투자를 진행하겠다는 것이다.

또 대용량 트래픽 전송이 필요한 서비스의 데이터센터 간 삼중화를 위해 별도 전용망도 구성하겠다는 입장이다. 특히 이번 사태와 관련해, 이중화 조치가 미흡했던 운영관리도구에 대해서도 빠른 시일 안에 삼중화 조치를 취하겠다는 입장이다.

고우찬 부사장은 “여러 가지 개선 사항들은 획기적인 아이템들은 아닐 수 있지만 초기 투자비를 제외하고도 연간 운영비만 몇 백억 또는 몇 천억 단위의 과감한 투자 결정이 있어야 실행할 수 있는 것들이 대부분이다”라며 “향후 5년간은 지난 5년간 투자 금액의 3배 이상 규모로 투자를 확대하겠다”고 말했다.

변지희 기자(zhee@chosunbiz.com)

<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.