Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
Охота на баги: Сбои WireGuard и несоответствие MTU в GKE
Ad

Инфраструктурная команда Lovable отлаживала сетевую проблему в кластере Google Kubernetes Engine (GKE), вызывавшую периодические сбои соединений. Используя AI-агента для сканирования логов Clickhouse, они обнаружили, что поды anetd (реализация Cilium от Google) падали ~120 раз на под за шесть дней — почти раз в час. Дампы крашей выявили панику конкурентного доступа к карте в коде интеграции WireGuard от Google, а не в самом WireGuard.

Первое исправление: отключение прозрачного шифрования

Поддержка Google рекомендовала отключить шифрование между узлами, чтобы обойти баг WireGuard. Команда применила изменение и перезапустила все поды anetd. Краши прекратились примерно на четыре часа — затем пользователи начали видеть случайные сбои соединений с Valkey (их хранилищем данных в памяти).

Ad

Вторая ошибка: несоответствие MTU

Инженер Эрик использовал tcpdump и Wireshark для захвата пакетов. Улика: "Destination unreachable (Fragmentation needed)". Вот причина:

  • При включенном WireGuard MTU кластера был установлен на 1420 байт (с учетом накладных расходов WireGuard в 80 байт).
  • После отключения WireGuard конфигурации должны были вернуться к стандартным 1500 байтам, но некоторые узлы не были перезапущены — они все еще использовали старый MTU 1420.
  • Соединения Valkey, проходящие через узлы с несоответствующими MTU, периодически сбоили.

Решение

Исправление: rolling restart всех узлов для обеспечения согласованной конфигурации MTU по всему кластеру. Это устранило ошибки фрагментации и восстановило стабильность.

Основные выводы

  • Первая ошибка была в интеграции WireGuard от Google в anetd — баг конкурентности при доступе к карте. Она специфична для реализации GKE.
  • Отключение шифрования обошло панику, но вызвало несоответствие MTU, которое потребовало полного развертывания узлов.
  • AI-агенты помогли быстро выявить паттерн крашей anetd из миллионов строк логов.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Построение моста между двумя Telegram-ботами в одном групповом чате: семантика доставки по HTTP
Гайды

Построение моста между двумя Telegram-ботами в одном групповом чате: семантика доставки по HTTP

Разработчик делится практическим подходом к соединению двух независимых Telegram-ботов в одном групповом чате, решая проблемы доставки сообщений между ботами с помощью HTTP-ретрансляторов, подтверждений, дедупликации и строго ограниченных лент.

OpenClawRadar
Как настроить Qwen 3.6 Plus Preview на OpenRouter для бесплатного использования OpenClaw
Гайды

Как настроить Qwen 3.6 Plus Preview на OpenRouter для бесплатного использования OpenClaw

Qwen 3.6 Plus Preview в настоящее время бесплатен на OpenRouter с окном контекста в 1 миллион токенов, подходит для работы с AI-агентами. Настройка включает создание аккаунта на OpenRouter, добавление провайдера в OpenClaw и конфигурацию модели.

OpenClawRadar
Практические уроки от создания встроенного искусственного интеллекта в React Native
Гайды

Практические уроки от создания встроенного искусственного интеллекта в React Native

Разработчик делится конкретными техническими деталями создания приложения на React Native с локальными LLM, генерацией изображений, транскрипцией голоса и компьютерным зрением, включая стратегии управления памятью, выбор библиотек и тесты производительности.

OpenClawRadar
Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Гайды

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook

Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.

OpenClawRadar