[뉴스토마토 김진양 기자] 지난 10월 SK㈜ C&C 판교 데이터센터에서 발생한 화재로 유례없는 '카카오톡 먹통' 사태가 야기된 가운데, SK㈜ C&C와 카카오 모두 대형 재난 상황에 준하는 모의훈련 등의 준비가 부족했던 것으로 드러났다.
과학기술정보통신부는 방송통신위원회, 소방청과 함께 이 같은 내용을 담은 SK㈜ C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 6일 발표했다.
과기정통부에 따르면 지난 10월15일 오후 3시19분 SK㈜ C&C 판교 데이터센터 지하 3층 배터리실에서 화재가 발생해 화재 진압, 건물 전력 차단 등 사유로
카카오(035720), 네이버(
NAVER(035420)) 등 입주기업의 서비스에 장애가 발생했다.
불은 같은 날 오후 11시45분 완전 진화됐으며 판교 데이터센터는 순차적으로 전력 공급을 재개해 10월19일 오전 5시경 전력 공급을 정상화했다.
서비스 장애 및 이용자 피해가 가장 광범위했던 카카오는 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치를 통해 20일 오후 11시경 정상화 됐다. 장애 복구에 소요된 시간은 총 127시간 33분으로 집계됐다. 네이버의 경우 일부 기능 오류가 발생해 주요 서비스·기능 대부분은 약 20분~12시간 내 정상화됐다.
SK㈜ C&C, 화재 상황 반영 모의 훈련 전무
과기정통부 등의 조사 결과, 판교 데이터센터는 배터리 온도 등을 모니터링하는 시스템(BMS)를 갖추고 있었지만 화재 발생 직전까지 화재에 대한 이상징후가 나타나지는 않은 것으로 나타났다. 화재 발생 후 가스 소화 장비도 작동했지만 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있던 것으로 조사됐다. 다만 이번에 불이 난 리튬이온 배터리는 지난 2016년 설치 이후 현재까지 특화된 방화조치는 하지 않은 것으로 확인됐다.
또한 데이터센터는 무정전 전원 장치(UPS) 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계까지 갖춰져 있었으나, 화재 등으로 특정 공간의 UPS에 동시 장애가 발생 시에는 그 UPS들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였던 것으로 나타났다. 특히 화재가 발생한 배터리실이 일부 UPS와 천장 공간이 미분리된 격벽으로만 나눠져 있어 화재 열기 등으로 UPS 작동이 중지됐다.
소방 당국은 화재 진압을 위해 살수가 필요한 상황에서 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치를 취하지 못했다. SK㈜ C&C는 화재 대비 매뉴얼은 갖고 있었지만 살수 상황, 발화 구역 등 실제 화재상황 수준까지 반영한 세부 대응계획과 모의훈련은 없었던 것으로 파악됐다.
카카오, '동작-대기 체계' 이중화 작동 안해
카카오는 서비스 기능을 애플리케이션, 서비스 플랫폼, 운영 및 관리도구, 데이터베이스, 인프라 설비 레이어 등 5개 레이어로 구분하고 판교 데이터센터와 기타 센터 간 동작(active)-대기(standby) 체계로 이중화 했으나 이번 사고에서는 대기 시스템이 제대로 동작하지 않았다.
대기 서버를 '동작' 상태로 만들기 위한 권한관리 기능인 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화돼있을 뿐 타 데이터센터에 이중화돼 있지 않아 판교 데이터센터의 동작 서버 작동 불능 시 서비스 장애 복구가 지연됐다.
또한 애플리케이션, 서비스 플랫폼 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화돼 있지 않아 복구에 상당 시간이 소요된 원인이 됐다.
더욱이 카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중돼 있어 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받게 됐다. 특히 여러 서비스의 구동 초기단계부터 필요한 '카카오인증'과 같은 핵심기능도 판교 센터에 집중돼 여러 서비스 전반에 광범위한 영향을 미친 원인이 됐다.
카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나 각 단계별 체계화 및 자동화가 미흡한 것으로 조사됐다. 일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했으나 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했던 것으로 확인됐다.
이종호 과학기술정보통신부 장관이 6일 정부서울청사에서 '디지털서니스 장애 조사결과'를 발표하고 있다. (사진=뉴스토마토)
정부는 사고 직후 '방송통신재난 대책본부'를 구성·운영(총 15차)해 신속한 장애 복구를 독려하고 원인을 조사했다. 이날 발표된 분석 결과에 따라 SK㈜ C&C, 카카오, 네이버 3사에 대해 책임있는 조치 및 대책마련 등 후속조치를 시행하도록 할 계획이다.
단기적으로 조치 가능한 사항은 각 사가 선제적으로 우선 조치하도록 하고, 중·장기적으로 조치가 필요하거나 구체적 방안 마련 등이 필요한 사안은 향후 조치계획을 1개월 내 보고하도록 할 예정이다. 또한 각 사가 제출한 조치 결과, 향후 계획 및 재난예방·복구에 대한 의견 등은 추후 정책방안 마련에 반영할 계획이다.
아울러 방통위는 카카오 등에 대해 피해접수 전담 창구 개설과 피해보상 협의체를 마련해 실질적인 피해 구제방안을 수립·이행하도록 했다. 방통위는 향후 통신장애 발생 시 이용자 고지와 실효성 있는 피해 구제를 위한 법령 및 이용약관 등 개선방안을 마련할 계획이다.
이종호 과기정통부 장관은 "데이터센터와 디지털서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼치는 만큼, 이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구 및 재발 예방에 최선의 노력을 다해 디지털서비스에 대한 국민 신뢰를 다시 회복할 수 있기를 바란다"고 말했다.
이어 "정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합해 디지털 시대에 맞는 안정성 강화방안을 마련하겠다"며 "끊김없는 디지털서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해나가겠다"고 강조했다.
김진양 기자 jinyangkim@etomato.com