Caça ao Bug: Quedas do WireGuard e Incompatibilidade de MTU no GKE

A equipe de infraestrutura da Lovable depurou um problema de rede em todo o cluster no Google Kubernetes Engine (GKE) que causava falhas de conexão intermitentes. Usando um agente de IA para examinar logs do Clickhouse, descobriram que os pods anetd (implementação do Cilium do Google) estavam travando ~120 vezes por pod ao longo de seis dias — quase uma vez por hora. Os dumps de travamento revelaram um pânico de acesso concorrente a map no código de integração do WireGuard do Google, não no próprio WireGuard.
Primeira correção: Desabilitar criptografia transparente
O suporte do Google recomendou desabilitar a criptografia nó a nó para contornar o bug do WireGuard. A equipe aplicou a alteração e reiniciou todos os pods anetd. As travamentos pararam por cerca de quatro horas — até que os usuários começaram a ver falhas de conexão aleatórias no Valkey (seu armazenamento de dados em memória).
Segundo bug: Incompatibilidade de MTU
O engenheiro Erik usou tcpdump e Wireshark para capturar pacotes. A prova definitiva: "Destino inalcançável (Fragmentação necessária)". Veja a causa:
- Com o WireGuard ativado, a MTU do cluster era definida como 1420 bytes (considerando a sobrecarga de encapsulamento de 80 bytes do WireGuard).
- Após desabilitar o WireGuard, as configurações deveriam reverter para os padrões de 1500 bytes, mas alguns nós não foram reiniciados — eles ainda usavam a MTU antiga de 1420.
- Conexões com o Valkey que cruzavam nós com MTUs incompatíveis falhavam intermitentemente.
Resolução
A correção: reinicialização contínua de todos os nós para garantir configuração consistente de MTU em todo o cluster. Isso eliminou erros de fragmentação e restaurou a estabilidade.
Principais conclusões
- O primeiro bug estava na integração do
anetddo Google com o WireGuard — um bug de concorrência no acesso a map. É específico da implementação do GKE. - Desabilitar a criptografia contornou o pânico, mas introduziu uma incompatibilidade de MTU que exigiu uma implantação completa dos nós.
- Agentes de IA ajudaram a identificar rapidamente o padrão de travamento do anetd entre milhões de linhas de log.
📖 Leia a fonte original: HN AI Agents
👀 See Also

Configuração de Instância Canary para Atualizações Seguras do OpenClaw
Um usuário do Reddit compartilha uma metodologia detalhada de canário para testar atualizações do OpenClaw antes da produção: raiz de configuração isolada, porta separada, matriz de teste de fumaça e um formato de relatório de atualização estruturado.

Quatro modos de falha específicos do aarch64 ao executar o vLLM no Blackwell GB10 com CUDA 13.0
Um desenvolvedor encontrou quatro modos de falha específicos ao configurar o vLLM v0.7.1 com DeepSeek-R1-32B em um sistema Blackwell GB10 rodando arquitetura aarch64 com CUDA 13.0, incluindo incompatibilidades de ABI e dependências ausentes.

Gateway e Habilidades do OpenClaw: Indo Além do Chat para Execução Automatizada
O Gateway do OpenClaw conecta canais como Telegram e WhatsApp a habilidades que executam ações no mundo real, como executar testes, chamar APIs e gerenciar arquivos, com tarefas cron permitindo automação programada em segundo plano.

OpenClaw 101: Um Resumo Rápido para Iniciantes
Nenhum