Como Corrigir Quedas do WireGuard no GKE: Bug de MTU

A equipe de infraestrutura da Lovable depurou um problema de rede em todo o cluster no Google Kubernetes Engine (GKE) que causava falhas de conexão intermitentes. Usando um agente de IA para examinar logs do Clickhouse, descobriram que os pods anetd (implementação do Cilium do Google) estavam travando ~120 vezes por pod ao longo de seis dias — quase uma vez por hora. Os dumps de travamento revelaram um pânico de acesso concorrente a map no código de integração do WireGuard do Google, não no próprio WireGuard.

Primeira correção: Desabilitar criptografia transparente

O suporte do Google recomendou desabilitar a criptografia nó a nó para contornar o bug do WireGuard. A equipe aplicou a alteração e reiniciou todos os pods anetd. As travamentos pararam por cerca de quatro horas — até que os usuários começaram a ver falhas de conexão aleatórias no Valkey (seu armazenamento de dados em memória).

Segundo bug: Incompatibilidade de MTU

O engenheiro Erik usou tcpdump e Wireshark para capturar pacotes. A prova definitiva: "Destino inalcançável (Fragmentação necessária)". Veja a causa:

Com o WireGuard ativado, a MTU do cluster era definida como 1420 bytes (considerando a sobrecarga de encapsulamento de 80 bytes do WireGuard).
Após desabilitar o WireGuard, as configurações deveriam reverter para os padrões de 1500 bytes, mas alguns nós não foram reiniciados — eles ainda usavam a MTU antiga de 1420.
Conexões com o Valkey que cruzavam nós com MTUs incompatíveis falhavam intermitentemente.

Resolução

A correção: reinicialização contínua de todos os nós para garantir configuração consistente de MTU em todo o cluster. Isso eliminou erros de fragmentação e restaurou a estabilidade.

Principais conclusões

O primeiro bug estava na integração do anetd do Google com o WireGuard — um bug de concorrência no acesso a map. É específico da implementação do GKE.
Desabilitar a criptografia contornou o pânico, mas introduziu uma incompatibilidade de MTU que exigiu uma implantação completa dos nós.
Agentes de IA ajudaram a identificar rapidamente o padrão de travamento do anetd entre milhões de linhas de log.

📖 Leia a fonte original: HN AI Agents