WireGuard-Abstürze in GKE: MTU-Konflikt-Fix

Das Infrastrukturteam von Lovable debuggte ein clusterweites Netzwerkproblem auf Google Kubernetes Engine (GKE), das zu intermittierenden Verbindungsfehlern führte. Mithilfe eines KI-Agenten zur Analyse der Clickhouse-Protokolle entdeckten sie, dass anetd-Pods (Googles Cilium-Implementierung) innerhalb von sechs Tagen etwa 120 Mal pro Pod abstürzten – fast einmal pro Stunde. Absturz-Dumps offenbarten eine Concurrent-Map-Access-Panik in Googles WireGuard-Integrationscode, nicht in WireGuard selbst.

Erste Lösung: Transparente Verschlüsselung deaktivieren

Der Google-Support empfahl, die Knoten-zu-Knoten-Verschlüsselung zu deaktivieren, um den WireGuard-Fehler zu umgehen. Das Team wendete die Änderung an und startete alle anetd-Pods neu. Die Abstürze hörten für etwa vier Stunden auf – dann begannen Benutzer, zufällige Verbindungsfehler zu Valkey (ihrem In-Memory-Datenspeicher) zu sehen.

Zweiter Fehler: MTU-Konflikt

Ingenieur Erik nutzte tcpdump und Wireshark, um Pakete zu erfassen. Das Hauptindiz: „Destination unreachable (Fragmentation needed)“. Hier ist die Ursache:

Bei aktiviertem WireGuard war die Cluster-MTU auf 1420 Byte gesetzt (unter Berücksichtigung des 80-Byte-Encapsulation-Overheads von WireGuard).
Nach Deaktivierung von WireGuard hätten die Konfigurationen auf die standardmäßigen 1500 Byte zurückgesetzt werden sollen, aber einige Knoten wurden nicht neu gestartet – sie verwendeten weiterhin die alte MTU von 1420.
Valkey-Verbindungen über Knoten mit unterschiedlichen MTUs schlugen zeitweise fehl.

Lösung

Die Lösung: Rollierender Neustart aller Knoten, um eine konsistente MTU-Konfiguration im gesamten Cluster sicherzustellen. Dadurch wurden Fragmentierungsfehler beseitigt und die Stabilität wiederhergestellt.

Wichtige Erkenntnisse

Der erste Fehler lag in Googles anetd-Integration von WireGuard – ein Parallelitätsfehler beim Map-Zugriff. Er ist spezifisch für die GKE-Implementierung.
Die Deaktivierung der Verschlüsselung umging die Panik, führte jedoch zu einem MTU-Konflikt, der einen vollständigen Knoten-Rollout erforderte.
KI-Agenten halfen, das anetd-Absturzmuster schnell aus Millionen von Protokollzeilen zu identifizieren.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Fehlerjagd: WireGuard-Abstürze und MTU-Konflikt in GKE

Erste Lösung: Transparente Verschlüsselung deaktivieren

Zweiter Fehler: MTU-Konflikt

Lösung

Wichtige Erkenntnisse

👀 Siehe auch

OpenClaw Memory Plugin Analyse: Verlustfreie Claw + LanceDB empfohlen

Ein Einzelentwickler-Zweiphasen-Prompting-Verfahren für große Projekte mit Claude AI

Analyse der Produktionstechnik-Muster von Claude Code aus reverse-engineertem Quellcode

OpenClaw Mega Cheatsheet: Ihr Gateway zur Meisterschaft im AI-Coding