WireGuard plante GKE : bugs MTU et accès concurrent

L'équipe infrastructure de Lovable a débogué un problème réseau à l'échelle du cluster sur Google Kubernetes Engine (GKE) provoquant des échecs de connexion intermittents. En utilisant un agent IA pour analyser les logs Clickhouse, ils ont découvert que les pods anetd (l'implémentation Cilium de Google) crashaient environ 120 fois par pod sur six jours — soit près d'une fois par heure. Les dumps de crash ont révélé une panique d'accès concurrent à une map dans le code d'intégration WireGuard de Google, et non dans WireGuard lui-même.

Première correction : désactiver le chiffrement transparent

Le support Google a recommandé de désactiver le chiffrement nœud à nœud pour contourner le bug WireGuard. L'équipe a appliqué le changement et redémarré tous les pods anetd. Les crashs ont cessé pendant environ quatre heures — puis les utilisateurs ont commencé à voir des échecs de connexion aléatoires vers Valkey (leur magasin de données en mémoire).

Deuxième bug : décalage de MTU

L'ingénieur Erik a utilisé tcpdump et Wireshark pour capturer les paquets. La preuve irréfutable : "Destination unreachable (Fragmentation needed)". Voici la cause :

Avec WireGuard activé, la MTU du cluster était réglée à 1420 octets (en tenant compte du surcoût d'encapsulation de 80 octets de WireGuard).
Après désactivation de WireGuard, les configurations auraient dû revenir au standard 1500 octets, mais certains nœuds n'avaient pas été redémarrés — ils utilisaient toujours l'ancienne MTU à 1420.
Les connexions Valkey traversant des nœuds avec des MTU différentes échouaient de manière intermittente.

Résolution

La correction : un redémarrage progressif de tous les nœuds pour garantir une configuration MTU cohérente sur l'ensemble du cluster. Cela a éliminé les erreurs de fragmentation et rétabli la stabilité.

Points clés à retenir

Le premier bug se trouvait dans l'intégration WireGuard de anetd de Google — un bug de concurrence dans l'accès à une map. Il est spécifique à l'implémentation GKE.
La désactivation du chiffrement a contourné la panique mais a introduit un décalage de MTU qui a nécessité un déploiement complet des nœuds.
Les agents IA ont aidé à faire apparaître rapidement le schéma de crash d'anetd parmi des millions de lignes de logs.

📖 Lire la source complète : HN AI Agents