NerfGuard: コード要求をより安価なモデルにルーティングし、コストを3倍削減する分類器

✍️ OpenClawRadar📅 公開日: June 6, 2026🔗 Source
NerfGuard: コード要求をより安価なモデルにルーティングし、コストを3倍削減する分類器
Ad

Claude CodeからCodexへ速度と操作性の向上を求めて移行したチームは、トークン課金の高さに苦しんでいました。日々の請求額は驚くほどで、簡単なタスクにも最高級モデルを最大推論で使っていることに気づきました。そこで彼らはNerfGuardを開発しました——各リクエストを必要最低限のモデルと推論深度にルーティングする高速分類器です。

核となるのは、与えられたコーディングリクエストに必要な最小限の知能を判定する分類器です。その上で、自動トークン効率化技術を適用します。結果として、トークン消費を大幅に抑えつつほぼ同じ品質を維持し、知能と推論が適切に分配されるため、速度も大幅に向上します。チームは最大3倍の節約と、ツールの応答待ち時間で1人あたり1日数時間の節約を観測しました。

ソースからの主な詳細:

  • 分類器が各リクエストに最安のモデル+推論深度をルーティング
  • 追加の自動トークン効率化技術
  • 結果:同じ支出で3倍の利用
  • 速度改善:1人あたり1日数時間の節約
  • スロットリング制限に達する前により多くの利用

現在、複数のAI企業のエンジニアが使用しています。ツールはnerfguard.comで入手可能です。

対象:コーディングエージェント(Claude Code、Codexなど)を使用し、支出あたりのアウトプットを最大化し待ち時間を減らしたいチーム。

📖 原文を読む: HN AI Agents

Ad

👀 See Also

オフグリッドモバイルアプリ、オンデバイスAIツールを追加し3倍の速度向上を実現
Tools

オフグリッドモバイルアプリ、オンデバイスAIツールを追加し3倍の速度向上を実現

オフグリッドモバイルアプリは、AIモデルがウェブ検索、電卓、日付/時刻、デバイス情報などのツールを完全にオフラインで使用できるようになりました。設定可能なKVキャッシュオプションにより、スマートフォンで最大30トークン/秒を実現しています。

OpenClawRadar
クラウバック:リークしたClaude検証ループのフックベース実装
Tools

クラウバック:リークしたClaude検証ループのフックベース実装

Clawbackは、Claudeのソースマップ流出から検証ループをプロンプトではなく機械的なフックとして再実装したGitHubプロジェクトです。これには、コンテキスト圧力下でもモデルがスキップできないストップフック、PreToolUse、PostToolUse、PostCompactフックが含まれています。

OpenClawRadar
開発者がオンデバイスクリップボードタスク向けのApple Intelligenceをテスト中
Tools

開発者がオンデバイスクリップボードタスク向けのApple Intelligenceをテスト中

ある開発者がApple IntelligenceのFoundation Modelsフレームワークを使用してクリップボードマネージャーを構築し、短い要約や書き換えなどの日常タスクには適しているが、あいまいな言語や詳細な作業には限界があると報告しました。

OpenClawRadar
LocalSynapse MCPサーバーがmacOSサポートと検索機能の改善を追加
Tools

LocalSynapse MCPサーバーがmacOSサポートと検索機能の改善を追加

ローカル文書を検索するオフラインMCPサーバー「LocalSynapse」がmacOSをサポートし、複数単語の検索クエリに関する修正を含むアップデートを実施。開発者はフィードバックに基づく改善として、位置調整クリックブーストや時間減衰によるプロモーションなどを実装。

OpenClawRadar