RelayPlane Proxy de Código Abierto Muestra una Reducción del 73% en Costos con Enrutamiento del Modelo Claude

✍️ OpenClawRadar📅 Publicado: 7 de abril de 2026🔗 Source
RelayPlane Proxy de Código Abierto Muestra una Reducción del 73% en Costos con Enrutamiento del Modelo Claude
Ad

Proxy de Código Abierto para el Enrutamiento de la API de Claude

RelayPlane es un proxy nativo de npm de código abierto que se sitúa frente a la API de Anthropic. La herramienta fue construida usando Claude Code, lo que aceleró el desarrollo. Es gratuito para autoalojar y está diseñado para manejar el enrutamiento entre diferentes modelos Claude según la complejidad del prompt.

Resultados de Pruebas Comparativas y Configuración

La prueba comparativa utilizó una carga de trabajo mixta con 60% de tareas simples y 40% de tareas complejas. Se compararon dos escenarios:

  • Directo (todo Sonnet): latencia p50 1,55s, costo por 10 solicitudes $0,0323
  • Vía RelayPlane con enrutamiento: latencia p50 0,78s, costo por 10 solicitudes $0,0086

Esto representa una reducción de costos del 73,4%. Con 10.000 solicitudes por día, esto se traduce en aproximadamente $712 de ahorro mensual.

Ad

Configuración de Enrutamiento

La configuración de enrutamiento es sencilla:

{
  "routing": {
    "complexity": {
      "enabled": true,
      "simple": "claude-haiku-4-5",
      "moderate": "claude-sonnet-4-6",
      "complex": "claude-opus-4-6"
    }
  }
}

La lógica de enrutamiento utiliza un clasificador de complejidad que examina el recuento de tokens, indicadores de código y palabras clave analíticas. Los encabezados de respuesta incluyen x-relayplane-routed-model para verificar qué modelo procesó realmente la solicitud.

Precios de Modelos y Lógica de Enrutamiento

El sistema de enrutamiento dirige los prompts a los modelos apropiados según la complejidad:

  • Prompts simples → Haiku ($0,80 por millón de tokens)
  • Prompts moderados → Sonnet ($3 por millón de tokens)
  • Prompts complejos → Opus ($15 por millón de tokens)

El autor señala que el clasificador no es perfecto pero es "suficientemente bueno para capturar la mayor parte del ahorro". La metodología completa de las pruebas comparativas está disponible en un Gist vinculado en el material fuente.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

AiPayGen: Un Mercado de Agentes de IA con Integración MCP para Claude Code
Herramientas

AiPayGen: Un Mercado de Agentes de IA con Integración MCP para Claude Code

AiPayGen es un mercado con 142 agentes de IA en 27 categorías que incluyen finanzas, legal, salud, DevOps, seguridad y marketing. Funciona como un servidor MCP para uso directo en Claude Code, permitiendo a los usuarios navegar, invocar y gestionar agentes mediante comandos específicos.

OpenClawRadar
SiteTest.ai lanza un verificador gratuito de visibilidad en IA para ChatGPT, Perplexity y Gemini
Herramientas

SiteTest.ai lanza un verificador gratuito de visibilidad en IA para ChatGPT, Perplexity y Gemini

Nueva herramienta gratuita sitetest.ai ejecuta una auditoría GEO de 168 puntos, probando GPTBot, PerplexityBot y Google-Extended en tu servidor real. Calificación A–F por motor más correcciones de código listas para copiar y pegar.

sitetest.ai team
Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado
Herramientas

Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado

Sense es un SDK de Go que utiliza Claude para dos funciones principales: evaluar resultados no deterministas en pruebas con aserciones en lenguaje natural, y extraer estructuras tipadas de texto no estructurado mediante reflexión y tool_use forzado.

OpenClawRadar
Sandbox0: Infraestructura de Sandbox de Código Abierto Nativa de Kubernetes para Agentes de IA
Herramientas

Sandbox0: Infraestructura de Sandbox de Código Abierto Nativa de Kubernetes para Agentes de IA

Sandbox0 es una infraestructura de sandbox de código abierto para agentes de IA construida sobre Kubernetes con almacenamiento persistente a través de JuiceFS y escalado automático. Aborda limitaciones como límites de concurrencia y ejecución efímera que se encuentran en soluciones existentes.

OpenClawRadar