2025년 6월 구글 클라우드 대규모 장애 분석

2025년 6월 구글 클라우드 대규모 장애 분석: 전 세계 서비스 마비 사건 상세 보고서

1. 개요

2025년 6월 12일, 구글 클라우드 플랫폼(GCP)에서 전 세계적인 대규모 서비스 장애가 발생했다. 이번 장애는 API Gateway, Google App Engine, BigQuery, Cloud Storage, Compute Engine 등 50여 개 이상의 핵심 서비스에 영향을 미쳤으며, 약 7시간 27분 동안 지속되었다.

장애는 2025년 6월 12일 10:51 PDT에 시작되어 18:18 PDT에 완전히 해결되었으며, 전 세계 모든 리전에 영향을 미쳤다. 특히 us-central1 리전은 다른 지역보다 훨씬 긴 복구 시간이 소요되어 고객들에게 심각한 영향을 주었다.

구글은 이번 사건에 대해 "이런 장애는 발생해서는 안 되었다"며 깊은 사과를 표명하고, 상세한 근본 원인 분석 보고서를 후속으로 발표할 예정이라고 밝혔다.

2. 장애 타임라인 및 영향 범위

이번 구글 클라우드 장애는 단계별로 다음과 같이 진행되었다:

1) 장애 발생 초기 (10:51 - 12:30 PDT)

장애는 API 관리 시스템에 대한 잘못된 자동화된 할당량 업데이트로 인해 발생했다. 이 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했으며, 고객들은 503 에러를 경험하게 되었다.

영향을 받은 주요 서비스들:

API Gateway
Google App Engine
Google BigQuery
Google Cloud Storage
Google Compute Engine
Cloud Run
Cloud Spanner
Vertex AI 서비스군

2) 부분 복구 단계 (12:30 - 14:00 PDT)

엔지니어링 팀이 근본 원인을 식별하고 문제가 되는 할당량 검사를 우회하는 방식으로 대부분 리전에서 2시간 내에 복구를 완료했다. 하지만 us-central1 리전의 할당량 정책 데이터베이스가 과부하 상태가 되어 복구가 지연되었다.

3) 완전 복구 단계 (14:00 - 18:18 PDT)

대부분의 서비스가 복구된 후에도 일부 서비스에서는 백로그 처리 등의 잔여 영향이 약 1시간 동안 지속되었다. 특히 Vertex AI Online Prediction 서비스는 18:18 PDT에 마지막으로 완전 복구되었다.

3. 근본 원인 분석

구글의 초기 분석에 따르면, 이번 장애의 근본 원인은 다음과 같다:

1) API 관리 시스템 장애

API 관리 시스템에 잘못된 자동화된 할당량 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했다. 이는 시스템의 자동화 프로세스에서 발생한 오류로, 수동 검증 절차의 부재가 문제를 확대시켰다.

2) us-central1 리전 특수 상황

다른 리전들이 비교적 빠르게 복구된 반면, us-central1 리전은 할당량 정책 데이터베이스의 과부하로 인해 복구가 크게 지연되었다. 이는 해당 리전의 트래픽 집중도와 데이터베이스 구조적 문제가 복합적으로 작용한 결과로 분석된다.

3) 스트리밍 및 IaaS 자원 보호

다행히 기존에 실행 중이던 스트리밍 서비스와 IaaS(Infrastructure as a Service) 자원들은 영향을 받지 않았다. 이는 구글의 인프라 설계에서 API 계층과 실행 계층이 적절히 분리되어 있었기 때문이다.

4. 영향받은 지역 및 서비스

이번 장애는 전 세계적으로 발생했으며, 다음과 같은 주요 리전들이 영향을 받았다:

1) 아시아-태평양 지역

서울 (asia-northeast3)
도쿄 (asia-northeast1)
싱가포르 (asia-southeast1)
홍콩 (asia-east2)
시드니 (australia-southeast1)

2) 유럽 지역

런던 (europe-west2)
프랑크푸르트 (europe-west3)
파리 (europe-west9)
암스테르담 (europe-west4)

3) 북미 지역

오리건 (us-west1)
아이오와 (us-central1) - 가장 심각한 영향
사우스 캐롤라이나 (us-east1)
로스앤젤레스 (us-west2)

5. 대응 방안 및 교훈

이번 구글 클라우드 장애를 통해 얻을 수 있는 주요 교훈과 대응 방안은 다음과 같다:

1) 멀티 클라우드 전략 수립

단일 클라우드 서비스 제공업체에 대한 의존도를 줄이기 위해 멀티 클라우드 아키텍처를 구축하는 것이 중요하다. AWS, Microsoft Azure, Google Cloud 등을 조합하여 장애 발생 시 서비스 연속성을 보장할 수 있는 백업 체계를 마련해야 한다.

2) 장애 대응 계획 수립

클라우드 서비스 장애 발생 시를 대비한 비즈니스 연속성 계획(BCP)을 수립해야 한다. 이에는 다음 사항들이 포함되어야 한다:

핵심 업무 프로세스 식별
대체 서비스 경로 확보
데이터 백업 및 복구 절차
고객 커뮤니케이션 계획

3) 모니터링 및 알림 체계 강화

클라우드 서비스의 상태를 실시간으로 모니터링하고, 장애 발생 시 즉시 알림을 받을 수 있는 체계를 구축해야 한다. 구글 클라우드의 경우 Status Dashboard를 활용하거나 서드파티 모니터링 도구를 사용할 수 있다.

4) 자동화 시스템 검증 강화

이번 장애의 근본 원인이 자동화된 할당량 업데이트의 오류였다는 점에서, 자동화 시스템에 대한 검증 절차를 강화하는 것이 중요하다. 특히 전 세계적으로 영향을 미칠 수 있는 변경사항에 대해서는 단계별 배포와 롤백 절차를 마련해야 한다.

6. 결론

2025년 6월 12일 발생한 구글 클라우드 대규모 장애는 클라우드 서비스의 의존도가 높아진 현대 IT 환경에서 서비스 연속성의 중요성을 다시 한 번 상기시켜주는 사건이었다.

구글은 이번 사건에 대해 깊은 사과를 표명하고 상세한 사후 분석 보고서를 발표할 예정이라고 밝혔다. 하지만 기업들은 이러한 대규모 장애가 언제든 발생할 수 있다는 점을 인식하고, 사전에 적절한 대비책을 마련하는 것이 중요하다.

특히 한국 기업들의 경우 asia-northeast3(서울) 리전을 주로 사용하고 있어, 이번 장애로 인한 직접적인 영향을 받았을 가능성이 높다. 따라서 멀티 리전 배포나 하이브리드 클라우드 전략을 통해 이러한 위험을 최소화하는 방안을 검토해야 할 것이다.