タイトル:バグハント:GKEにおけるWireGuardクラッシュとMTU不一致

✍️ OpenClawRadar📅 公開日: May 1, 2026🔗 Source
タイトル:バグハント:GKEにおけるWireGuardクラッシュとMTU不一致
Ad

Lovableのインフラチームは、Google Kubernetes Engine(GKE)上のクラスタ全体のネットワーク問題をデバッグし、断続的な接続障害を引き起こしていることを突き止めました。AIエージェントを使ってClickhouseのログをスキャンしたところ、anetdポッド(GoogleのCilium実装)が6日間でポッドあたり約120回クラッシュしていることが判明しました——ほぼ1時間に1回のペースです。クラッシュダンプから、WireGuard自体ではなく、GoogleのWireGuard統合コードにおける同時マップアクセスのパニックが明らかになりました。

最初の修正:透過的暗号化の無効化

Googleサポートは、WireGuardのバグを回避するためにノード間暗号化を無効にすることを推奨しました。チームはこの変更を適用し、すべてのanetdポッドを再起動しました。クラッシュは約4時間停止しました——その後、ユーザーはValkey(インメモリデータストア)へのランダムな接続障害に気づき始めました。

2つ目のバグ:MTUの不一致

エンジニアのErikはtcpdumpとWiresharkを使用してパケットをキャプチャしました。証拠は決定的でした:「Destination unreachable (Fragmentation needed)」。原因は次の通りです:

  • WireGuard有効時、クラスタのMTUは1420バイトに設定されていました(WireGuardの80バイトカプセル化オーバーヘッドを考慮)。
  • WireGuardを無効にした後、設定は標準の1500バイトに戻るはずでしたが、一部のノードが再起動されておらず、古い1420バイトのMTUが使われ続けていました。
  • MTUが一致しないノードをまたがるValkey接続が断続的に失敗しました。
Ad

解決策

修正方法:すべてのノードのローリング再起動により、クラスタ全体で一貫したMTU設定を確保しました。これにより断片化エラーが解消され、安定性が回復しました。

重要な教訓

  • 最初のバグはGoogleのanetdにおけるWireGuard統合にありました——マップアクセスの同時実行バグです。GKEの実装に固有の問題です。
  • 暗号化を無効にすることでパニックは回避できましたが、MTU不一致が発生し、全ノードのロールアウトが必要になりました。
  • AIエージェントは、数百万行のログからanetdのクラッシュパターンを迅速に浮き彫りにするのに役立ちました。

📖 全文を読む(英語): HN AI Agents

Ad

👀 See Also

インタラクティブな解説マップ:Claude Codeエージェントループ設計、単一呼び出しから自己変異プロンプトまで
Guides

インタラクティブな解説マップ:Claude Codeエージェントループ設計、単一呼び出しから自己変異プロンプトまで

Opus 4.7 で構築されたインタラクティブサイトが、Claude Code の 11 種類の実際のエージェントループデザインを視覚化。基本呼び出しから、自身のプロンプトを書き換えるエージェントまで、メモリとループ機構を SVG アニメーションで解説します。

OpenClawRadar
個人AIエージェント構築のための100のヒント:クラウドプロトタイプから本番環境へ
Guides

個人AIエージェント構築のための100のヒント:クラウドプロトタイプから本番環境へ

6週間にわたって、永続的なAIエージェント(チャットボットのラッパーではない)を構築した経験。タスク管理、取引追跡、メール読み取り、データ分析を行う。重要な教訓:システムプロンプトではなく憲法を書くこと、メモリにはフラットマークダウンファイルを使用すること、アイデンティティファイルをgitでバージョン管理すること。

OpenClawRadar
AIをコード工場ではなく、認知パートナーとして活用する
Guides

AIをコード工場ではなく、認知パートナーとして活用する

Redditの投稿では、『Cognitive Authorship Copilot』と呼ばれるシステムプロンプトが提案されています。これは、AIを自律的な解決策生成器ではなく、ペアプログラミングのパートナーとして行動させるもので、タスクの複雑さに基づいて3段階の介入レベルを設けています。

OpenClawRadar
Claude Desktop ワークスペース VM サービス問題の修正(Windows 11 Home向け)
Guides

Claude Desktop ワークスペース VM サービス問題の修正(Windows 11 Home向け)

コミュニティで開発された修正により、Windows 11 HomeのClaude Desktopワークスペース機能で発生する「VMサービスが実行されていません」エラーに対処。手動PowerShellコマンドとGitHubで利用可能な自動化ツールが提供されています。

OpenClawRadar