2025년 6월 구글 클라우드 대규모 장애 분석: 전 세계 서비스 마비 사건 상세 보고서
1. 개요
2025년 6월 12일, 구글 클라우드 플랫폼(GCP)에서 전 세계적인 대규모 서비스 장애가 발생했다. 이번 장애는 API Gateway, Google App Engine, BigQuery, Cloud Storage, Compute Engine 등 50여 개 이상의 핵심 서비스에 영향을 미쳤으며, 약 7시간 27분 동안 지속되었다.
장애는 2025년 6월 12일 10:51 PDT에 시작되어 18:18 PDT에 완전히 해결되었으며, 전 세계 모든 리전에 영향을 미쳤다. 특히 us-central1 리전은 다른 지역보다 훨씬 긴 복구 시간이 소요되어 고객들에게 심각한 영향을 주었다.
구글은 이번 사건에 대해 "이런 장애는 발생해서는 안 되었다"며 깊은 사과를 표명하고, 상세한 근본 원인 분석 보고서를 후속으로 발표할 예정이라고 밝혔다.
2. 장애 타임라인 및 영향 범위
이번 구글 클라우드 장애는 단계별로 다음과 같이 진행되었다:
1) 장애 발생 초기 (10:51 - 12:30 PDT)
장애는 API 관리 시스템에 대한 잘못된 자동화된 할당량 업데이트로 인해 발생했다. 이 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했으며, 고객들은 503 에러를 경험하게 되었다.
영향을 받은 주요 서비스들:
- API Gateway
- Google App Engine
- Google BigQuery
- Google Cloud Storage
- Google Compute Engine
- Cloud Run
- Cloud Spanner
- Vertex AI 서비스군
2) 부분 복구 단계 (12:30 - 14:00 PDT)
엔지니어링 팀이 근본 원인을 식별하고 문제가 되는 할당량 검사를 우회하는 방식으로 대부분 리전에서 2시간 내에 복구를 완료했다. 하지만 us-central1 리전의 할당량 정책 데이터베이스가 과부하 상태가 되어 복구가 지연되었다.
3) 완전 복구 단계 (14:00 - 18:18 PDT)
대부분의 서비스가 복구된 후에도 일부 서비스에서는 백로그 처리 등의 잔여 영향이 약 1시간 동안 지속되었다. 특히 Vertex AI Online Prediction 서비스는 18:18 PDT에 마지막으로 완전 복구되었다.
3. 근본 원인 분석
구글의 초기 분석에 따르면, 이번 장애의 근본 원인은 다음과 같다:
1) API 관리 시스템 장애
API 관리 시스템에 잘못된 자동화된 할당량 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했다. 이는 시스템의 자동화 프로세스에서 발생한 오류로, 수동 검증 절차의 부재가 문제를 확대시켰다.
2) us-central1 리전 특수 상황
다른 리전들이 비교적 빠르게 복구된 반면, us-central1 리전은 할당량 정책 데이터베이스의 과부하로 인해 복구가 크게 지연되었다. 이는 해당 리전의 트래픽 집중도와 데이터베이스 구조적 문제가 복합적으로 작용한 결과로 분석된다.
3) 스트리밍 및 IaaS 자원 보호
다행히 기존에 실행 중이던 스트리밍 서비스와 IaaS(Infrastructure as a Service) 자원들은 영향을 받지 않았다. 이는 구글의 인프라 설계에서 API 계층과 실행 계층이 적절히 분리되어 있었기 때문이다.
4. 영향받은 지역 및 서비스
이번 장애는 전 세계적으로 발생했으며, 다음과 같은 주요 리전들이 영향을 받았다:
1) 아시아-태평양 지역
- 서울 (asia-northeast3)
- 도쿄 (asia-northeast1)
- 싱가포르 (asia-southeast1)
- 홍콩 (asia-east2)
- 시드니 (australia-southeast1)
2) 유럽 지역
- 런던 (europe-west2)
- 프랑크푸르트 (europe-west3)
- 파리 (europe-west9)
- 암스테르담 (europe-west4)
3) 북미 지역
- 오리건 (us-west1)
- 아이오와 (us-central1) - 가장 심각한 영향
- 사우스 캐롤라이나 (us-east1)
- 로스앤젤레스 (us-west2)
5. 대응 방안 및 교훈
이번 구글 클라우드 장애를 통해 얻을 수 있는 주요 교훈과 대응 방안은 다음과 같다:
1) 멀티 클라우드 전략 수립
단일 클라우드 서비스 제공업체에 대한 의존도를 줄이기 위해 멀티 클라우드 아키텍처를 구축하는 것이 중요하다. AWS, Microsoft Azure, Google Cloud 등을 조합하여 장애 발생 시 서비스 연속성을 보장할 수 있는 백업 체계를 마련해야 한다.
2) 장애 대응 계획 수립
클라우드 서비스 장애 발생 시를 대비한 비즈니스 연속성 계획(BCP)을 수립해야 한다. 이에는 다음 사항들이 포함되어야 한다:
- 핵심 업무 프로세스 식별
- 대체 서비스 경로 확보
- 데이터 백업 및 복구 절차
- 고객 커뮤니케이션 계획
3) 모니터링 및 알림 체계 강화
클라우드 서비스의 상태를 실시간으로 모니터링하고, 장애 발생 시 즉시 알림을 받을 수 있는 체계를 구축해야 한다. 구글 클라우드의 경우 Status Dashboard를 활용하거나 서드파티 모니터링 도구를 사용할 수 있다.
4) 자동화 시스템 검증 강화
이번 장애의 근본 원인이 자동화된 할당량 업데이트의 오류였다는 점에서, 자동화 시스템에 대한 검증 절차를 강화하는 것이 중요하다. 특히 전 세계적으로 영향을 미칠 수 있는 변경사항에 대해서는 단계별 배포와 롤백 절차를 마련해야 한다.
6. 결론
2025년 6월 12일 발생한 구글 클라우드 대규모 장애는 클라우드 서비스의 의존도가 높아진 현대 IT 환경에서 서비스 연속성의 중요성을 다시 한 번 상기시켜주는 사건이었다.
구글은 이번 사건에 대해 깊은 사과를 표명하고 상세한 사후 분석 보고서를 발표할 예정이라고 밝혔다. 하지만 기업들은 이러한 대규모 장애가 언제든 발생할 수 있다는 점을 인식하고, 사전에 적절한 대비책을 마련하는 것이 중요하다.
특히 한국 기업들의 경우 asia-northeast3(서울) 리전을 주로 사용하고 있어, 이번 장애로 인한 직접적인 영향을 받았을 가능성이 높다. 따라서 멀티 리전 배포나 하이브리드 클라우드 전략을 통해 이러한 위험을 최소화하는 방안을 검토해야 할 것이다.