NerfGuard: Un clasificador que enruta solicitudes de codificación a modelos más baratos, reduciendo el gasto 3 veces

Un equipo que pasó de Claude Code a Codex por velocidad y controlabilidad se encontró pagando mucho por token. Su factura diaria era impactante, y notaron que usaban los mejores modelos con razonamiento máximo para cada tarea, incluso las triviales. Así que crearon NerfGuard — un clasificador rápido que enruta cada solicitud al modelo y nivel de razonamiento menos costosos necesarios.
El núcleo es un clasificador que determina la inteligencia mínima necesaria para una solicitud de codificación. Además, aplica técnicas automáticas de eficiencia de tokens. El resultado: aproximadamente la misma calidad por un gasto de tokens mucho menor, y como la inteligencia y el razonamiento se empaquetan correctamente, la velocidad también aumenta considerablemente. El equipo observó hasta 3x de ahorro y horas al día por persona ahorradas esperando respuestas de herramientas y agentes.
Detalles clave de la fuente:
- Clasificador enruta al modelo + profundidad de razonamiento más baratos para cada solicitud
- Técnicas automáticas adicionales de eficiencia de tokens
- Resultado: 3x de uso por el mismo gasto
- Mejoras de velocidad: horas al día por persona ahorradas
- Más uso antes de alcanzar límites de throttling
Actualmente lo usan ingenieros en múltiples empresas de IA. La herramienta está disponible en nerfguard.com.
Para quién es: Equipos que usan agentes de codificación (Claude Code, Codex, etc.) que quieran maximizar la producción por dólar y reducir los tiempos de espera.
📖 Lee la fuente original: HN AI Agents
👀 Ver también

Estados del espacio: Crea aplicaciones web interactivas para agentes OpenClaw con Markdown
Statespace es un framework gratuito y de código abierto para crear y compartir aplicaciones web amigables con IA que los agentes de OpenClaw pueden navegar e interactuar usando solo Markdown. Te permite definir herramientas, componentes e instrucciones en archivos Markdown a los que los agentes acceden a través de HTTP.

ClamBot: Agente de IA Ejecuta Código Generado por LLM en Sandbox WASM para Seguridad
ClamBot es un framework de agente de IA que ejecuta todo el código generado por LLM en un sandbox de WebAssembly usando QuickJS en Wasmtime, eliminando la necesidad de llamadas exec() o subprocess. Incluye una puerta de aprobación para llamadas a herramientas, almacenamiento persistente de scripts como 'clams', y soporta múltiples proveedores de LLM.

Flujo de trabajo eficiente utilizando Claude Code: Planificación antes de la ejecución
Boris Tane aprovecha Claude Code con un enfoque estructurado de planificación, centrándose en la investigación y planificación detalladas para mantener el control sobre las decisiones arquitectónicas.

Script y Flujo de Trabajo para Fusión de Modelos GGUF de Variantes Qwen3.5-35B
Un usuario de Reddit compartió un script de Python para fusionar archivos de modelo GGUF con pérdida mínima, específicamente combinando el modelo Qwen3.5-35B-A3B-Uncensored de HauhauCS con la versión Claude-4.6-Opus-Reasoning-Distilled de samuelcardillo. El script se ejecuta en Google Colab Free Tier e incluye soporte de cuantización mediante llama-quantize.