RelayPlane: Proxy Open Source Reduz Custos Claude em 73%

Proxy de Código Aberto para Roteamento da API Claude

O RelayPlane é um proxy de código aberto e nativo do npm que fica na frente da API da Anthropic. A ferramenta foi construída usando o Claude Code, o que acelerou o desenvolvimento. É gratuito para auto-hospedagem e projetado para lidar com o roteamento entre diferentes modelos Claude com base na complexidade do prompt.

Resultados e Configuração dos Benchmarks

O benchmark utilizou uma carga de trabalho mista com 60% de tarefas simples e 40% de tarefas complexas. Dois cenários foram comparados:

Direto (tudo Sonnet): latência p50 1,55s, custo por 10 solicitações US$ 0,0323
Via RelayPlane com roteamento: latência p50 0,78s, custo por 10 solicitações US$ 0,0086

Isso representa uma redução de custo de 73,4%. Com 10.000 solicitações por dia, isso se traduz em aproximadamente US$ 712 em economia mensal.

Configuração de Roteamento

A configuração de roteamento é simples:

{
  "routing": {
    "complexity": {
      "enabled": true,
      "simple": "claude-haiku-4-5",
      "moderate": "claude-sonnet-4-6",
      "complex": "claude-opus-4-6"
    }
  }
}

A lógica de roteamento usa um classificador de complexidade que examina a contagem de tokens, indicadores de código e palavras-chave analíticas. Os cabeçalhos de resposta incluem x-relayplane-routed-model para verificar qual modelo realmente processou a solicitação.

Precificação dos Modelos e Lógica de Roteamento

O sistema de roteamento direciona os prompts para os modelos apropriados com base na complexidade:

Prompts simples → Haiku (US$ 0,80 por milhão de tokens)
Prompts moderados → Sonnet (US$ 3 por milhão de tokens)
Prompts complexos → Opus (US$ 15 por milhão de tokens)

O autor observa que o classificador não é perfeito, mas é "bom o suficiente para capturar a maior parte da economia". A metodologia completa do benchmark está disponível em um Gist vinculado no material de origem.

📖 Read the full source: r/ClaudeAI