baixar PDF
TREINAMENTO RCA
O treinamento de Análise de Causa Raiz da Sologic fornece as ferramentas, habilidades e conhecimentos necessários para resolver problemas complexos em qualquer setor, dentro de qualquer disciplina e de qualquer escala. Saber maisPROGRAMAS
Causelink da Sologic tem o produto de software de análise de causa raiz certo para você e sua organização. Usuários únicos podem optar por instalar o software localmente ou utilizar a nuvem. Nosso principal software de escala empresarial é entregue On Premise ou como SaaS na nuvem. Saber maisNOTA DA SOLOGIC: Este resumo foi fornecido pelo Google. Usamos esse resumo para criar o gráfico de causa e efeito.
RESUMO:
Na sexta-feira, 5 de agosto de 2016, alguns clientes do Google Cloud Platform experimentaram maior latência de rede e perda de pacotes para o Google Compute Engine (GCE), o Cloud VPN, o Cloud Router e o Cloud SQL por 99 minutos. Se você foi afetado por esse problema, pedimos desculpas. Temos a intenção de fornecer uma confiabilidade de nível superior a essa, e estamos trabalhando para aprender com essa questão para torná-la realidade.
DESCRIÇÃO DETALHADA DO IMPACTO:
Na sexta-feira, 5 de agosto de 2016, das 00:55 às 02:34 PDT, vários serviços foram interrompidos:
Alguns tráfegos TCP e UDP do Google Compute Engine tiveram alta latência. A maior parte da entrada de tráfego ICMP, ESP, AH e SCTP de fora da rede do Google foi descartada silenciosamente, resultando na queda de conexões existentes e no tempo de conexão de novas conexões.
A maioria das conexões de primeira geração do Google Cloud SQL de fontes externas ao Google falhou com um tempo limite de conexão. As conexões de segunda geração do Cloud SQL podem ter visto uma latência mais alta, mas não uma falha.
Os túneis do Google Cloud VPN permaneceram conectados, mas houve perda completa de pacotes de dados na maioria dos túneis. Como as sessões do Cloud Router BGP atravessam o Cloud VPN, todas as sessões foram descartadas.
Todos os outros tráfegos não foram afetados, incluindo conexões internas entre serviços do Google e serviços prestados por meio de APIs HTTP.
CAUSA RAIZ:
Ao remover um roteador defeituoso do serviço, um novo procedimento para desviar o tráfego do roteador foi usado. Este procedimento aplicou uma nova configuração que resultou no anúncio de alguns endereços IP do Google Cloud Platform a partir de um único ponto de presença no sudoeste dos EUA. Como esses anúncios eram altamente específicos, eles tinham precedência sobre as rotas normais para a rede do Google e faziam com que uma proporção substancial de tráfego para os intervalos de rede afetados fosse direcionada para esse ponto de presença. Esse desvio causou diretamente a latência adicional de alguns clientes.
Além disso, essa configuração incorreta enviou tráfego afetado à infraestrutura de próxima geração que estava sendo testada. Essa nova infraestrutura ainda não estava configurada para lidar com o tráfego do Cloud Platform e aplicava um filtro de pacotes excessivamente restritivo. Isso bloqueou o tráfego nos endereços IP afetados que foram encaminhados pelo ponto de presença afetado para o Cloud VPN, o Cloud Router, a primeira geração do SQL SQL e o GCE em protocolos diferentes de TCP e UDP.
REMEDIAÇÃO E PREVENÇÃO:
A mitigação começou às 02:04 PDT quando os engenheiros do Google reverteram a alteração na infraestrutura de rede que causou esse problema, e todo o roteamento de tráfego voltou ao normal às 02:34. O sistema envolvido foi protegido contra recorrências, corrigindo a configuração errada. Isso inclui alterações no filtro BGP para evitar essa classe de anúncios incorretos.
Estamos implementando testes de integração adicionais para nossas políticas de roteamento para garantir que as alterações de configuração se comportem conforme o esperado antes de serem implantadas na produção. Além disso, estamos aprimorando nossa telemetria de produção externa à rede do Google para detectar melhor problemas de peering que passam por nossos testes.