Chasse aux bugs : plantages de WireGuard et inadéquation MTU dans GKE

L'équipe infrastructure de Lovable a débogué un problème réseau à l'échelle du cluster sur Google Kubernetes Engine (GKE) provoquant des échecs de connexion intermittents. En utilisant un agent IA pour analyser les logs Clickhouse, ils ont découvert que les pods anetd (l'implémentation Cilium de Google) crashaient environ 120 fois par pod sur six jours — soit près d'une fois par heure. Les dumps de crash ont révélé une panique d'accès concurrent à une map dans le code d'intégration WireGuard de Google, et non dans WireGuard lui-même.
Première correction : désactiver le chiffrement transparent
Le support Google a recommandé de désactiver le chiffrement nœud à nœud pour contourner le bug WireGuard. L'équipe a appliqué le changement et redémarré tous les pods anetd. Les crashs ont cessé pendant environ quatre heures — puis les utilisateurs ont commencé à voir des échecs de connexion aléatoires vers Valkey (leur magasin de données en mémoire).
Deuxième bug : décalage de MTU
L'ingénieur Erik a utilisé tcpdump et Wireshark pour capturer les paquets. La preuve irréfutable : "Destination unreachable (Fragmentation needed)". Voici la cause :
- Avec WireGuard activé, la MTU du cluster était réglée à 1420 octets (en tenant compte du surcoût d'encapsulation de 80 octets de WireGuard).
- Après désactivation de WireGuard, les configurations auraient dû revenir au standard 1500 octets, mais certains nœuds n'avaient pas été redémarrés — ils utilisaient toujours l'ancienne MTU à 1420.
- Les connexions Valkey traversant des nœuds avec des MTU différentes échouaient de manière intermittente.
Résolution
La correction : un redémarrage progressif de tous les nœuds pour garantir une configuration MTU cohérente sur l'ensemble du cluster. Cela a éliminé les erreurs de fragmentation et rétabli la stabilité.
Points clés à retenir
- Le premier bug se trouvait dans l'intégration WireGuard de
anetdde Google — un bug de concurrence dans l'accès à une map. Il est spécifique à l'implémentation GKE. - La désactivation du chiffrement a contourné la panique mais a introduit un décalage de MTU qui a nécessité un déploiement complet des nœuds.
- Les agents IA ont aidé à faire apparaître rapidement le schéma de crash d'anetd parmi des millions de lignes de logs.
📖 Lire la source complète : HN AI Agents
👀 See Also

Automatisation du rafraîchissement des jetons OAuth pour les bots avec Claude Code
Un utilisateur de Reddit partage une méthode pour éviter l'expiration des jetons OAuth en configurant Claude Code pour rafraîchir automatiquement les jetons toutes les 8 heures, permettant aux bots de fonctionner en continu sans intervention manuelle.

Projet OpenClaw Système d'exploitation : Cadre de gestion multi-projets
Un framework qui isole les projets avec des répertoires standardisés, utilise cron pour l'automatisation au lieu d'agents pour les tâches prévisibles, et met en œuvre des protocoles de sauvegarde obligatoires pour réduire l'utilisation de tokens et améliorer la cohérence d'exécution.

100 Conseils pour Construire un Agent IA Personnel : Du Prototype Cloud à la Production
Six semaines à construire un agent IA persistant — pas un wrapper de chatbot — qui gère des tâches, suit des affaires, lit des emails et analyse des données. Leçons clés : Rédigez une Constitution pas un prompt système, utilisez des fichiers markdown plats pour la mémoire, et versionnez votre fichier d'identité dans git.

Accédez à GPT-5.4 via l'abonnement Codex dans OpenClaw
Un post Reddit détaille comment configurer OpenClaw pour utiliser GPT-5.4 via un abonnement OpenAI Codex en modifiant le fichier de configuration openclaw.json et en redémarrant la passerelle.