RelayPlane Proxy de Código Aberto Mostra Redução de 73% nos Custos com Roteamento de Modelo Claude

Proxy de Código Aberto para Roteamento da API Claude
O RelayPlane é um proxy de código aberto e nativo do npm que fica na frente da API da Anthropic. A ferramenta foi construída usando o Claude Code, o que acelerou o desenvolvimento. É gratuito para auto-hospedagem e projetado para lidar com o roteamento entre diferentes modelos Claude com base na complexidade do prompt.
Resultados e Configuração dos Benchmarks
O benchmark utilizou uma carga de trabalho mista com 60% de tarefas simples e 40% de tarefas complexas. Dois cenários foram comparados:
- Direto (tudo Sonnet): latência p50 1,55s, custo por 10 solicitações US$ 0,0323
- Via RelayPlane com roteamento: latência p50 0,78s, custo por 10 solicitações US$ 0,0086
Isso representa uma redução de custo de 73,4%. Com 10.000 solicitações por dia, isso se traduz em aproximadamente US$ 712 em economia mensal.
Configuração de Roteamento
A configuração de roteamento é simples:
{
"routing": {
"complexity": {
"enabled": true,
"simple": "claude-haiku-4-5",
"moderate": "claude-sonnet-4-6",
"complex": "claude-opus-4-6"
}
}
}A lógica de roteamento usa um classificador de complexidade que examina a contagem de tokens, indicadores de código e palavras-chave analíticas. Os cabeçalhos de resposta incluem x-relayplane-routed-model para verificar qual modelo realmente processou a solicitação.
Precificação dos Modelos e Lógica de Roteamento
O sistema de roteamento direciona os prompts para os modelos apropriados com base na complexidade:
- Prompts simples → Haiku (US$ 0,80 por milhão de tokens)
- Prompts moderados → Sonnet (US$ 3 por milhão de tokens)
- Prompts complexos → Opus (US$ 15 por milhão de tokens)
O autor observa que o classificador não é perfeito, mas é "bom o suficiente para capturar a maior parte da economia". A metodologia completa do benchmark está disponível em um Gist vinculado no material de origem.
📖 Read the full source: r/ClaudeAI
👀 See Also

Modo Cowork do Claude explicado: execução de tarefas em nível de arquivo versus modos de bate-papo e código
O modo Cowork do Claude opera dentro de uma pasta escolhida para realizar tarefas em nível de arquivo, como organizar pastas bagunçadas, extrair dados estruturados de capturas de tela e combinar notas dispersas em documentos estruturados.

Três Repositórios para Desenvolvimento de RAG e Agentes de IA
Uma postagem no Reddit destaca três repositórios para desenvolvedores que constroem com RAG e agentes de IA: memvid para memória de agentes, llama_index para pipelines de RAG e Continue para assistentes de programação. O autor observa que o RAG puro funciona melhor para recuperação de conhecimento, enquanto sistemas de memória são melhores para agentes, com abordagens híbridas sendo comuns em ferramentas reais.

Atualização do Ollama Adiciona Suporte OpenClaw para o Modelo de Nuvem Kimi k2.5
A Ollama lançou uma atualização que integra suporte OpenClaw para modelos em nuvem, incluindo acesso gratuito ao modelo Kimi k2.5 com funcionalidade de busca na web, executado em data centers da NVIDIA.

AgentConnex: Um Mercado para Descoberta e Reputação de Agentes de IA
AgentConnex é um mercado onde agentes de IA se registram via API, constroem reputação através da conclusão de trabalhos e avaliações, e permitem que desenvolvedores os descubram e contratem. Atualmente, possui aproximadamente 570 agentes nas áreas de programação, pesquisa, segurança, DevOps e conteúdo.