2025년 6월 구글 클라우드 대규모 장애 분석

2025년 6월 구글 클라우드 대규모 장애 분석

2025년 6월 구글 클라우드 대규모 장애 분석: 전 세계 서비스 마비 사건 상세 보고서

1. 개요

2025년 6월 12일, 구글 클라우드 플랫폼(GCP)에서 전 세계적인 대규모 서비스 장애가 발생했다. 이번 장애는 API Gateway, Google App Engine, BigQuery, Cloud Storage, Compute Engine 등 50여 개 이상의 핵심 서비스에 영향을 미쳤으며, 약 7시간 27분 동안 지속되었다.

장애는 2025년 6월 12일 10:51 PDT에 시작되어 18:18 PDT에 완전히 해결되었으며, 전 세계 모든 리전에 영향을 미쳤다. 특히 us-central1 리전은 다른 지역보다 훨씬 긴 복구 시간이 소요되어 고객들에게 심각한 영향을 주었다.

구글은 이번 사건에 대해 "이런 장애는 발생해서는 안 되었다"며 깊은 사과를 표명하고, 상세한 근본 원인 분석 보고서를 후속으로 발표할 예정이라고 밝혔다.

2. 장애 타임라인 및 영향 범위

이번 구글 클라우드 장애는 단계별로 다음과 같이 진행되었다:

1) 장애 발생 초기 (10:51 - 12:30 PDT)

장애는 API 관리 시스템에 대한 잘못된 자동화된 할당량 업데이트로 인해 발생했다. 이 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했으며, 고객들은 503 에러를 경험하게 되었다.

영향을 받은 주요 서비스들:

  • API Gateway
  • Google App Engine
  • Google BigQuery
  • Google Cloud Storage
  • Google Compute Engine
  • Cloud Run
  • Cloud Spanner
  • Vertex AI 서비스군

2) 부분 복구 단계 (12:30 - 14:00 PDT)

엔지니어링 팀이 근본 원인을 식별하고 문제가 되는 할당량 검사를 우회하는 방식으로 대부분 리전에서 2시간 내에 복구를 완료했다. 하지만 us-central1 리전의 할당량 정책 데이터베이스가 과부하 상태가 되어 복구가 지연되었다.

3) 완전 복구 단계 (14:00 - 18:18 PDT)

대부분의 서비스가 복구된 후에도 일부 서비스에서는 백로그 처리 등의 잔여 영향이 약 1시간 동안 지속되었다. 특히 Vertex AI Online Prediction 서비스는 18:18 PDT에 마지막으로 완전 복구되었다.

3. 근본 원인 분석

구글의 초기 분석에 따르면, 이번 장애의 근본 원인은 다음과 같다:

1) API 관리 시스템 장애

API 관리 시스템에 잘못된 자동화된 할당량 업데이트가 전 세계적으로 배포되면서 외부 API 요청이 거부되기 시작했다. 이는 시스템의 자동화 프로세스에서 발생한 오류로, 수동 검증 절차의 부재가 문제를 확대시켰다.

2) us-central1 리전 특수 상황

다른 리전들이 비교적 빠르게 복구된 반면, us-central1 리전은 할당량 정책 데이터베이스의 과부하로 인해 복구가 크게 지연되었다. 이는 해당 리전의 트래픽 집중도와 데이터베이스 구조적 문제가 복합적으로 작용한 결과로 분석된다.

3) 스트리밍 및 IaaS 자원 보호

다행히 기존에 실행 중이던 스트리밍 서비스와 IaaS(Infrastructure as a Service) 자원들은 영향을 받지 않았다. 이는 구글의 인프라 설계에서 API 계층과 실행 계층이 적절히 분리되어 있었기 때문이다.

4. 영향받은 지역 및 서비스

이번 장애는 전 세계적으로 발생했으며, 다음과 같은 주요 리전들이 영향을 받았다:

1) 아시아-태평양 지역

  • 서울 (asia-northeast3)
  • 도쿄 (asia-northeast1)
  • 싱가포르 (asia-southeast1)
  • 홍콩 (asia-east2)
  • 시드니 (australia-southeast1)

2) 유럽 지역

  • 런던 (europe-west2)
  • 프랑크푸르트 (europe-west3)
  • 파리 (europe-west9)
  • 암스테르담 (europe-west4)

3) 북미 지역

  • 오리건 (us-west1)
  • 아이오와 (us-central1) - 가장 심각한 영향
  • 사우스 캐롤라이나 (us-east1)
  • 로스앤젤레스 (us-west2)

5. 대응 방안 및 교훈

이번 구글 클라우드 장애를 통해 얻을 수 있는 주요 교훈과 대응 방안은 다음과 같다:

1) 멀티 클라우드 전략 수립

단일 클라우드 서비스 제공업체에 대한 의존도를 줄이기 위해 멀티 클라우드 아키텍처를 구축하는 것이 중요하다. AWS, Microsoft Azure, Google Cloud 등을 조합하여 장애 발생 시 서비스 연속성을 보장할 수 있는 백업 체계를 마련해야 한다.

2) 장애 대응 계획 수립

클라우드 서비스 장애 발생 시를 대비한 비즈니스 연속성 계획(BCP)을 수립해야 한다. 이에는 다음 사항들이 포함되어야 한다:

  • 핵심 업무 프로세스 식별
  • 대체 서비스 경로 확보
  • 데이터 백업 및 복구 절차
  • 고객 커뮤니케이션 계획

3) 모니터링 및 알림 체계 강화

클라우드 서비스의 상태를 실시간으로 모니터링하고, 장애 발생 시 즉시 알림을 받을 수 있는 체계를 구축해야 한다. 구글 클라우드의 경우 Status Dashboard를 활용하거나 서드파티 모니터링 도구를 사용할 수 있다.

4) 자동화 시스템 검증 강화

이번 장애의 근본 원인이 자동화된 할당량 업데이트의 오류였다는 점에서, 자동화 시스템에 대한 검증 절차를 강화하는 것이 중요하다. 특히 전 세계적으로 영향을 미칠 수 있는 변경사항에 대해서는 단계별 배포와 롤백 절차를 마련해야 한다.

6. 결론

2025년 6월 12일 발생한 구글 클라우드 대규모 장애는 클라우드 서비스의 의존도가 높아진 현대 IT 환경에서 서비스 연속성의 중요성을 다시 한 번 상기시켜주는 사건이었다.

구글은 이번 사건에 대해 깊은 사과를 표명하고 상세한 사후 분석 보고서를 발표할 예정이라고 밝혔다. 하지만 기업들은 이러한 대규모 장애가 언제든 발생할 수 있다는 점을 인식하고, 사전에 적절한 대비책을 마련하는 것이 중요하다.

특히 한국 기업들의 경우 asia-northeast3(서울) 리전을 주로 사용하고 있어, 이번 장애로 인한 직접적인 영향을 받았을 가능성이 높다. 따라서 멀티 리전 배포나 하이브리드 클라우드 전략을 통해 이러한 위험을 최소화하는 방안을 검토해야 할 것이다.

You've successfully subscribed to PLAINBIT
Great! Next, complete checkout to get full access to all premium content.
Error! Could not sign up. invalid link.
Welcome back! You've successfully signed in.
Error! Could not sign in. Please try again.
Success! Your account is fully activated, you now have access to all content.
Error! Stripe checkout failed.
Success! Your billing info is updated.
Error! Billing info update failed.