Сбои WireGuard в GKE: как MTU и ошибки anetd вызывают панику

Инфраструктурная команда Lovable отлаживала сетевую проблему в кластере Google Kubernetes Engine (GKE), вызывавшую периодические сбои соединений. Используя AI-агента для сканирования логов Clickhouse, они обнаружили, что поды anetd (реализация Cilium от Google) падали ~120 раз на под за шесть дней — почти раз в час. Дампы крашей выявили панику конкурентного доступа к карте в коде интеграции WireGuard от Google, а не в самом WireGuard.

Первое исправление: отключение прозрачного шифрования

Поддержка Google рекомендовала отключить шифрование между узлами, чтобы обойти баг WireGuard. Команда применила изменение и перезапустила все поды anetd. Краши прекратились примерно на четыре часа — затем пользователи начали видеть случайные сбои соединений с Valkey (их хранилищем данных в памяти).

Вторая ошибка: несоответствие MTU

Инженер Эрик использовал tcpdump и Wireshark для захвата пакетов. Улика: "Destination unreachable (Fragmentation needed)". Вот причина:

При включенном WireGuard MTU кластера был установлен на 1420 байт (с учетом накладных расходов WireGuard в 80 байт).
После отключения WireGuard конфигурации должны были вернуться к стандартным 1500 байтам, но некоторые узлы не были перезапущены — они все еще использовали старый MTU 1420.
Соединения Valkey, проходящие через узлы с несоответствующими MTU, периодически сбоили.

Решение

Исправление: rolling restart всех узлов для обеспечения согласованной конфигурации MTU по всему кластеру. Это устранило ошибки фрагментации и восстановило стабильность.

Основные выводы

Первая ошибка была в интеграции WireGuard от Google в anetd — баг конкурентности при доступе к карте. Она специфична для реализации GKE.
Отключение шифрования обошло панику, но вызвало несоответствие MTU, которое потребовало полного развертывания узлов.
AI-агенты помогли быстро выявить паттерн крашей anetd из миллионов строк логов.

📖 Read the full source: HN AI Agents

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

Первое исправление: отключение прозрачного шифрования

Вторая ошибка: несоответствие MTU

Решение

Основные выводы

👀 Смотрите также

Чек-лист настройки OpenClaw: шесть важных шагов для новых пользователей

OpenClaw Multi-Agent: 7 изолированных агентов за 5/месяц

Как праздный агент сжигал 50 млн токенов в день – и как это исправить

72-шаговая настройка Claude: от стандартного до продвинутого пользователя