Configuração RouteLLM: Roteamento de Tarefas de IA com Custo-Eficiente

Configuração do Docker Compose para Configuração Híbrida de IA

Um usuário do Reddit postou uma configuração detalhada do Docker Compose que implementa o que eles chamam de "Superinteligência do Homem Pobre" - um sistema híbrido de IA que direciona tarefas entre modelos locais e na nuvem com base na complexidade.

Componentes Principais

O sistema usa quatro serviços principais:

vscode-openwire: Usa a imagem sendmeticket/vscode-openwire:1.0.0 com as portas 3000 e 3030 expostas. Isso fornece acesso ao GitHub Copilot através do OpenWire, embora a fonte observe que isso pode violar os Termos de Serviço e sugere usar uma chave de API disponível em vez disso.
ollama: Executa ollama/ollama:latest com a porta 11434 exposta. Ele baixa e serve automaticamente o modelo qwen3.5:4b como o modelo local "fraco".
openroutellm: Usa a imagem sendmeticket/openroutellm:1.0.0 na porta 6060. Este é o serviço de roteamento que decide qual modelo lida com cada solicitação.
openclaw: Executa ghcr.io/openclaw/openclaw:latest com as portas 18789 e 18790 expostas, servindo como a interface principal.

Configuração do RouteLLM

O serviço openroutellm é configurado com parâmetros específicos:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

Esta configuração usa roteamento baseado em BERT com um limite de 0,75 para determinar quando enviar tarefas para o modelo "forte" (GPT-4o) versus o modelo local "fraco" (Qwen3.5:4b).

Como Funciona

O sistema direciona tarefas difíceis para o modelo pago GPT-4o através do OpenWire/Copilot, enquanto tarefas mais simples são tratadas pelo modelo local Qwen3.5:4b executando no Ollama. Isso cria o que o autor descreve como "um modelo de IA à prova de falhas, com prioridade local, com baixa inteligência base, mas inteligência máxima realmente alta".

Todos os serviços são conectados através de uma rede Docker personalizada (openclaw_net com sub-rede 172.10.10.0/24) e incluem verificações de saúde para garantir a disponibilidade do serviço.

📖 Leia a fonte completa: r/LocalLLaMA