컨텐츠 바로가기

06.28 (금)

이슈 IT기업 이모저모

정부, 3차례 연속 오류 카카오톡에 “개선 조치 계획 수립해라”

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
카카오톡이 최근 3차례에 걸쳐 서비스 장애가 일어난 가운데 정부가 카카오에 1개월 이내 개선 조치 계획 수립을 요구했다. 이와 함께 3개월 이내에 시정결과를 제출하라고 했다.

과학기술정보통신부는 통신재난관리심의위원회를 개최하고 카카오의 미흡사항에 대한 시정조치 요구사항을 심의·의결했다고 31일 발혔다.

세계일보

사진=뉴시스

<이미지를 클릭하시면 크게 보실 수 있습니다>


앞서 과기정통부는 지난 21일과 23일, 카카오톡 서비스 장애 원인과 대응·복구현황에 대한 카카오의 통신재난관리계획의 이행 여부를 점검했다.

첫번째 카카오톡 장애는 13일 오후 1시44분부터 50분까지 6분간 일어났다. 과기정통부는 이로 인해 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정했다.

장애 원인은 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생한 데 따른 것으로 파악했다. 카카오는 실제 작업을 진행하기 전 사전테스트를 실시하지 않아 발생 가능한 오류에 대비하지 못했다.

지난 20일 오후 2시52분부터 58분까지 6분간 발생한 두 번째 장애 또한 이용자 80%가 메시지 전송 실패로 불편을 겪었을 것으로 추정된다. 네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인이다. 이번에는 작업 전 사전테스트는 실시했지만 개발결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐다.

세계일보

카카오톡 오류. 카카오톡 캡처

<이미지를 클릭하시면 크게 보실 수 있습니다>


세 번째 장애는 21일 오전 8시30분부터 9시24분까지 54분간 계속됐다. 이용자의 약 8%가 PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수발신 지연 등의 불편을 겪었다. 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바(Java) 프로그램 업데이트를 진행한 것이 원인이었다. 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제없이 새로운 작업을 진행해 오류가 발생했다.

이에 대해 과기정통부는 카카오를 상대로 1개월 이내 시정 요구사항에 대한 개선 계획을 제출하고 3개월 이내에 결과를 제출하라고 지시했다. 과기정통부는 우선 SW 업데이트, 시스템 교체, 신규 서비스 출시(배포) 등 주요 작업 전에 발생할 수 있는 오류를 사전 검증하기 위해 사전테스트 실시 대상 작업과 수행해야 할 테스트 범위(단계) 등에 대한 구체적인 내부지침을 보완하라고 했다.

또 사전테스트 환경을 실제 운영환경과 유사하게 구성하도록 3개월 이내에 고도화 계획을 제출하라고 했다. 주요 작업에 대한 승인·통제가 가능하도록 작업의 성격이나 작업 규모 등을 고려한 작업관리프로세스를 정립해 작업관리 전반을 체계화하고, 재난·장애 발생시 신속한 대응과 의사결정을 할 수 있도록 장애유형별·부서별 역할(전사 전파, 복구물자·인력투입, 이용자 고지 등)을 반영해 매뉴얼을 보완하라고 했다. 기술적 오류방지 조치, 트래픽 집중·증가 대비 조치 등을 위해 형식적인 ‘서비스 안정성 자체지침’에 대한 구체적 보완도 요구했다.

아울러 운영 중인 모니터링 체계를 보완하고 재난총괄부서에서 재난·장애 시 개발부서와 협업해 전파해야 한다고 지시했다. 또 총괄 대응할 수 있도록 3개월 이내에 통합 모니터링 시스템 구축 계획을 제출하라고 했다. 특히 유사한 장애가 재발하지 않도록 카카오가 운영 중인 ‘장애 회고 프로세스’를 표준화·공식화하고, 이번 장애의 복구·재발 방지방안을 포함한 전사 차원의 중·장기적 장애 재발 방지대책을 마련하는 한편, 체계적으로 그 결과를 관리해야 한다고 주문했다.

세계일보

이종호 과학기술정보통신부 장관. 연합뉴스

<이미지를 클릭하시면 크게 보실 수 있습니다>


장애 탐지 및 기업 내에 전파한 후에는 이용자 고지 담당부서에서 즉시 대응 조치할 수 있도록 장애 고지 기준 및 시점에 대한 지침을 마련하는 것은 물론 이용자가 빠르게 장애사실과 복구 여부 등을 인지할 수 있도록 카카오 고객센터 홈페이지 외에도 SNS 등 다양한 채널을 활용해 고지 채널 및 고지 방법을 개선하라고 했다.

이종호 과기정통부 장관은 “국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다”며 “디지털서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발방지를 위해 사업자의 관리체계를 면밀히 점검하겠다”고 말했다. 이어 “카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 전했다.

이와 관련, 카카오는 “작업 관리 및 감독이 미흡했다는 과기정통부의 점검 결과를 겸허히 수용한다”며 “앞으로 주요 작업에 대한 내부 관리·감독 프로세스를 재정비하고 강화할 계획이다. 이용자들에게 안정적인 서비스를 제공하기 위해 지속적으로 최선의 노력을 기울일 것”이라고 전했다.

권이선 기자 2sun@segye.com

ⓒ 세상을 보는 눈, 세계일보
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.