뉴스

3년 전 카카오 먹통 사태 어떻게 해결했나

3년 전 카카오 먹통 사태 어떻게 해결했나
지난 2022년 10월 15일 오후 3시 19분에 발생했던 카카오톡 먹통 사태는 '시스템 전체 이중화'라는 뼈를 깎는 노력을 통해 수습될 수 있었습니다.

오늘(29일) 정보통신기술(ICT) 업계에 따르면 카카오톡 먹통 사태는 사건 발생 5일 뒤인 2022년 10월 20일에 서비스를 완전히 복구할 수 있었습니다.

10월 15일 오후 3시 19분 판교 SK C&C 판교 데이터센터 리튬이온배터리 화재가 발생한 이후 카카오톡을 비롯한 카카오 대부분 서비스에 장애가 발생했습니다.

8시간 후 화재가 진화되고 2시간이 지나서야 카카오톡 메시지 송수신 기능이 복구됐습니다.

카카오는 사건 발생 이후 1개월간 자체 인력과 외부 기술 전문가를 선임해 원인조사 소위를 구성했습니다.

원인조사 소위는 데이터센터 간의 이중화가 미흡했던 점을 먹통 사태 장기화의 원인으로 꼽았습니다.

카카오에 따르면 먹통 사태 당시 한 데이터센터 전체에 문제가 생겼을 때 다른 데이터 센터로 서비스를 중단없이 이어가기 위한 조치가 부족했습니다.

주요 인프라인 오브젝트 스토리지(대용량 스토리지 서비스), 메타 정보 시스템(대량의 데이터를 수집, 저장, 분석하는 데이터 시스템), 보안키 저장소는 판교 데이터센터에만 이중화돼있어 시스템이 정상적으로 재가동될 수 없었습니다.

카카오 인증시스템에서 사용하는 캐시 시스템(데이터 임시 저장소)의 30%는 판교 데이터센터 내부에만 이중화돼있었습니다.

이 밖에 장애 대응에 필요한 운영 관리 도구와 협업 도구 역시 데이터센터 내에서만 이중화되고 데이터센터 간 이중화는 미흡해 개발자가 제때 필요한 도구를 사용할 수 없었습니다.

이중화 전환과 트래픽 제어가 자동으로 이어지지 않고 수동으로 이뤄졌던 점 역시 먹통 사태 장기화의 원인으로 지목됐습니다.

이에 카카오는 재발 방지대책을 수립하고 안산에 전용 데이터센터를 짓고 시스템 차원의 이중화 인프라를 구축한다는 재발 방지 대책을 발표했습니다.

또 판교 데이터센터 내에서만 이중화가 구성됐던 앱 배포 도구의 경우 데이터센터 간 이중화를 완료했습니다.

클라우드와 플랫폼 도구는 데이터센터 단위에서 삼중화했습니다.

아울러 배터리실 화재 상황을 고려한 대비 체계를 정비했습니다.

밀폐 공간에 소화 가스가 들어가지 못하도록 밀폐된 전기 판넬별로 개별 소화장치를 설치했고, 진화 수단으로 소화 가스를 작동하도록 했습니다.

규정치 이상의 소화 가스 비치는 기본으로 하고, 가스 부족 상황에 대응하기 위해 다른 층의 소화 가스를 끌어 쓸 수 있도록 예비시스템도 구축했습니다.

카카오는 이러한 원인 규명과 재발 방지대책을 개발자 콘퍼런스 이프카카오 2022에서 공개한 바 있습니다.

이렇듯 카카오 먹통 사태 당시에도 시스템 이중화 공백 문제가 지적됐지만 이번 국가정보자원관리원 화재에서도 시스템 이중화 공백이 원인으로 지목되며 문제가 되풀이됐다는 비판이 나오고 있습니다.

정부에 따르면 대전 본원 외 지역 분원에 데이터 백업 체계가 갖춰져 있지만, 이를 가동할 시스템이 부족해 행정 서비스 복구가 지연되고 있는 것으로 알려졌습니다.
Copyright Ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
경제 365
SBS 연예뉴스 가십보단 팩트를, 재미있지만 품격있게!

많이 본 뉴스

    스브스프리미엄

    스브스프리미엄이란?
      연합뉴스 - 국내최고 콘텐츠판매 플랫폼
      >