Propuesta de Enrutamiento de Inferencia Adaptativa para la Eficiencia de Consultas de IA

Qué es esto
Una propuesta técnica presentada al equipo de Producto e Ingeniería de Anthropic en abril de 2026 para dirigir automáticamente consultas de IA a niveles de modelo apropiados según una evaluación de complejidad antes de que comience el costoso cómputo.
El problema
Actualmente, cada consulta enviada a Claude — desde preguntas simples como "cuánto tiempo hiervo un huevo" hasta instrucciones técnicas de 2.000 palabras — se dirige por defecto a un modelo de capacidad completa. El sistema no evalúa la complejidad antes de comprometer recursos de cómputo, lo cual es ineficiente a escala. La inferencia de IA es el componente de mayor crecimiento en el consumo de energía de los centros de datos, proyectado para alcanzar el 12% de la electricidad de EE. UU. para 2028.
La solución propuesta: Proceso de cinco pasos
- Paso 1 — Contar: Medir la longitud de la consulta en caracteres, el recuento de oraciones y la presencia de archivos adjuntos o instrucciones de múltiples partes
- Paso 2 — Clasificar: Dirigir a un nivel de modelo según la puntuación de complejidad. Oraciones cortas y únicas van por defecto a modelos ligeros; instrucciones de múltiples párrafos con contexto se dirigen a modelos más capaces
- Paso 3 — Leer: El modelo asignado procesa la consulta normalmente
- Paso 4 — Responder: La respuesta se devuelve al usuario
- Paso 5 — Escalar: Si el usuario señala insatisfacción (rechaza, pide profundizar, reformula), el sistema sube automáticamente a un modelo más capaz para el seguimiento
Cómo funciona la puntuación de complejidad
El sistema utiliza una puntuación de preruteo de cinco factores: recuento de caracteres, recuento de oraciones, presencia de archivos adjuntos, densidad de palabras interrogativas y profundidad previa de la conversación. Esto clasificaría correctamente un porcentaje sustancial de consultas sin ninguna inferencia del modelo en absoluto. La longitud de caracteres funciona como una señal de primer orden porque la mayoría de las consultas simples son cortas y la mayoría de las consultas complejas son largas.
Diseño de la experiencia del usuario
Los usuarios no deberían ver este sistema ni se les debería pedir que elijan un modelo. La interfaz permanece idéntica y el enrutamiento es invisible. Si una respuesta es insuficiente, los usuarios piden más y reciben más. Esto elimina la fricción de pedir a usuarios no técnicos que seleccionen entre niveles de modelo como Haiku, Sonnet y Opus.
Impacto y fundamento
A la escala de Anthropic, incluso una reducción del 20–30% en el cómputo promedio por consulta representa una reducción significativa en el costo de inferencia y la carga energética. La propuesta posiciona a Anthropic por delante de los desafíos regulatorios y de relaciones públicas en torno al consumo de energía de los centros de datos, que se está convirtiendo en un tema legislativo en múltiples jurisdicciones.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Anthropic duplica los límites de tarifa de Claude Code y firma un acuerdo de cómputo con SpaceX
Los límites de tarifa de cinco horas de Claude Code se duplicaron para los planes Pro/Max/Team/Enterprise, se eliminaron las reducciones en horas pico y se aumentaron los límites de tarifa de API para los modelos Opus. SpaceX Colossus 1 agrega más de 300 MW de capacidad (220k GPUs NVIDIA) en un mes.

Kimi K2.6 vs Claude Opus 4.7: Prueba práctica con un mod de tablón de recompensas para Minetest
Un desarrollador probó Kimi K2.6 y Claude Opus 4.7 creando un mod de tablón de recompensas para Minetest/Luanti con backend en TypeScript y registro en Google Sheets. Opus logró que funcionara correctamente; Kimi falló en la parte de integración.

OpenAI Codex OAuth devuelve errores 429 desde el 16 de marzo a pesar de tener cuota completa.
OpenAI Codex OAuth ha estado devolviendo consistentemente errores 429 de "excediste tu cuota actual" desde el 16 de marzo, incluso cuando los paneles de control muestran un 100% de cuota restante. Los usuarios informan que el problema persiste a pesar de la reautenticación, la revocación de tokens y la reconfiguración completa.

Codificación Slurm: El Patrón de Desarrollo Impulsado por IA Donde el Tiempo Desaparece
Un desarrollador describe la 'codificación Slurm' como un patrón de desarrollo intenso habilitado por herramientas de codificación con IA, donde pequeñas ideas escalan rápidamente a sistemas completos a través de un ciclo de retroalimentación de implementación rápida y descargas de dopamina.