OpenClawエージェントの信頼性向上：小型モデルをランタイム衛生層に

問題：雑な出力が長時間稼働するエージェントの性能を低下させる

Mac Studio M4（36GB）上でQwen 3.5 27B（4ビット、oMLX）を家庭用エージェントとしてOpenClawをローカル実行した場合、時間の経過とともにモデルの能力が低下するわけではありませんでしたが、雑な出力が目立つようになりました。具体的な問題点は以下の通りです：

構造化されたツール使用ではなく、生のテキストとしてツール呼び出しが漏れ出す
計画段階の思考が最終応答に混入する
ツール結果やポリシーテキストをユーザーにそのまま繰り返す
不正な形式の出力がコンテキストを汚染し、その後の各ターンで性能劣化を引き起こす

根本的な問題は能力ではなく、実行時の衛生管理にありました：モデルは何をすべきかを理解していましたが、OpenClawの実行環境内で適切な振る舞いを維持できなかったのです。

解決策：実行時衛生管理のための4層アーキテクチャ

開発者は、単に大きなモデルを使用するよりも効果的な4層アプローチを実装しました：

要約：lossless-claw（DAGベース、freshTailCount=12、contextThreshold=0.60）によるコンテキスト圧縮。これが最も大きな改善をもたらしました。
保安官：不正な形式の応答がOpenClawに入る前に検出する正規表現とヒューリスティックチェック。これにより、漏れたツールマークアップ、計画者の冗談、生のJSONが永続的なコンテキストになるのを防ぎます。
審判：境界線上の出力を「有効な最終回答」と「不要なもの」に分類する、より小さく安価なモデル。このモデルは知性のためではなく、実行時の衛生管理のためのものです——第二の脳というよりも免疫システムのような役割を果たします。また、lossless-clawのすべての要約処理も担当します。
オゼンピック（内部名称）：積極的なメモリスクラビングにより、モデルが将来のターンでユーザーの要求、最終回答、および圧縮されたツール由来の事実のみを再読することを保証します——計画者の冗談、生のツールJSON、再試行の痕跡、またはポリシー自己対話は含まれません。

なぜこれがより大きなモデルを使用するよりも優れているのか

単一のモデルは、タスクを解決し、フォーマットの規律を維持し、コンテキストの一貫性を管理し、自身の出力で自身を汚染することを避け、悪い出力から回復することを同時に行わなければなりません——特にローカルの量子化レベルではこれが困難です。メインモデルが作業を行い、より小さなモデルが実行時の衛生管理を維持するように責任を分割することで、より多くのパラメータを追加するよりも効果的であることが証明されました。