Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

Инфраструктурная команда Lovable отлаживала сетевую проблему в кластере Google Kubernetes Engine (GKE), вызывавшую периодические сбои соединений. Используя AI-агента для сканирования логов Clickhouse, они обнаружили, что поды anetd (реализация Cilium от Google) падали ~120 раз на под за шесть дней — почти раз в час. Дампы крашей выявили панику конкурентного доступа к карте в коде интеграции WireGuard от Google, а не в самом WireGuard.
Первое исправление: отключение прозрачного шифрования
Поддержка Google рекомендовала отключить шифрование между узлами, чтобы обойти баг WireGuard. Команда применила изменение и перезапустила все поды anetd. Краши прекратились примерно на четыре часа — затем пользователи начали видеть случайные сбои соединений с Valkey (их хранилищем данных в памяти).
Вторая ошибка: несоответствие MTU
Инженер Эрик использовал tcpdump и Wireshark для захвата пакетов. Улика: "Destination unreachable (Fragmentation needed)". Вот причина:
- При включенном WireGuard MTU кластера был установлен на 1420 байт (с учетом накладных расходов WireGuard в 80 байт).
- После отключения WireGuard конфигурации должны были вернуться к стандартным 1500 байтам, но некоторые узлы не были перезапущены — они все еще использовали старый MTU 1420.
- Соединения Valkey, проходящие через узлы с несоответствующими MTU, периодически сбоили.
Решение
Исправление: rolling restart всех узлов для обеспечения согласованной конфигурации MTU по всему кластеру. Это устранило ошибки фрагментации и восстановило стабильность.
Основные выводы
- Первая ошибка была в интеграции WireGuard от Google в
anetd— баг конкурентности при доступе к карте. Она специфична для реализации GKE. - Отключение шифрования обошло панику, но вызвало несоответствие MTU, которое потребовало полного развертывания узлов.
- AI-агенты помогли быстро выявить паттерн крашей anetd из миллионов строк логов.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Построение моста между двумя Telegram-ботами в одном групповом чате: семантика доставки по HTTP
Разработчик делится практическим подходом к соединению двух независимых Telegram-ботов в одном групповом чате, решая проблемы доставки сообщений между ботами с помощью HTTP-ретрансляторов, подтверждений, дедупликации и строго ограниченных лент.

Как настроить Qwen 3.6 Plus Preview на OpenRouter для бесплатного использования OpenClaw
Qwen 3.6 Plus Preview в настоящее время бесплатен на OpenRouter с окном контекста в 1 миллион токенов, подходит для работы с AI-агентами. Настройка включает создание аккаунта на OpenRouter, добавление провайдера в OpenClaw и конфигурацию модели.

Практические уроки от создания встроенного искусственного интеллекта в React Native
Разработчик делится конкретными техническими деталями создания приложения на React Native с локальными LLM, генерацией изображений, транскрипцией голоса и компьютерным зрением, включая стратегии управления памятью, выбор библиотек и тесты производительности.

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.