Configuração do RouteLLM para Roteamento de Tarefas de IA com Custo-Eficiente

Configuração do Docker Compose para Configuração Híbrida de IA
Um usuário do Reddit postou uma configuração detalhada do Docker Compose que implementa o que eles chamam de "Superinteligência do Homem Pobre" - um sistema híbrido de IA que direciona tarefas entre modelos locais e na nuvem com base na complexidade.
Componentes Principais
O sistema usa quatro serviços principais:
- vscode-openwire: Usa a imagem
sendmeticket/vscode-openwire:1.0.0com as portas 3000 e 3030 expostas. Isso fornece acesso ao GitHub Copilot através do OpenWire, embora a fonte observe que isso pode violar os Termos de Serviço e sugere usar uma chave de API disponível em vez disso. - ollama: Executa
ollama/ollama:latestcom a porta 11434 exposta. Ele baixa e serve automaticamente o modeloqwen3.5:4bcomo o modelo local "fraco". - openroutellm: Usa a imagem
sendmeticket/openroutellm:1.0.0na porta 6060. Este é o serviço de roteamento que decide qual modelo lida com cada solicitação. - openclaw: Executa
ghcr.io/openclaw/openclaw:latestcom as portas 18789 e 18790 expostas, servindo como a interface principal.
Configuração do RouteLLM
O serviço openroutellm é configurado com parâmetros específicos:
python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4bEsta configuração usa roteamento baseado em BERT com um limite de 0,75 para determinar quando enviar tarefas para o modelo "forte" (GPT-4o) versus o modelo local "fraco" (Qwen3.5:4b).
Como Funciona
O sistema direciona tarefas difíceis para o modelo pago GPT-4o através do OpenWire/Copilot, enquanto tarefas mais simples são tratadas pelo modelo local Qwen3.5:4b executando no Ollama. Isso cria o que o autor descreve como "um modelo de IA à prova de falhas, com prioridade local, com baixa inteligência base, mas inteligência máxima realmente alta".
Todos os serviços são conectados através de uma rede Docker personalizada (openclaw_net com sub-rede 172.10.10.0/24) e incluem verificações de saúde para garantir a disponibilidade do serviço.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Arquitetura de Chat Paralelo Claude para Desenvolvimento Next.js
Um desenvolvedor criou um sistema para executar múltiplos chats do Claude AI simultaneamente na mesma base de código Next.js usando uma tabela de banco de dados compartilhada e um agente de polling, alcançando 87% de taxa de sucesso de build sem conflitos de merge em uma sessão.

Desenvolvedor compartilha mais de 10 servidores MCP para liquidação de agentes de IA, reputação e micropagamentos
Um desenvolvedor construiu o BlindOracle no Claude Code com mais de 100 agentes e criou mais de 10 servidores MCP para liquidação, reputação e micropagamentos. A arquitetura inclui previsões privadas de commit-reveal, pontuação on-chain, micropagamentos por solicitação e atestado verificável de agentes.

O Modo de Plano de Código do Claude Reduz a Taxa de Retrabalho de 40% para Quase Zero
Um desenvolvedor monitorou mais de 30 sessões de codificação com o Claude Code e descobriu que pular o Modo Plano resultou em refazer tarefas do zero 40% das vezes. Com o Modo Plano, a taxa de refazer caiu para basicamente zero, com um recurso levando 17 minutos no total versus 35+ minutos sem planejamento.

Sistema Multi-Agente para Análise Competitiva Aprofundada com Claude
Um desenvolvedor criou um sistema de agentes em três ondas que vai além de listas superficiais de concorrentes para extrair inteligência de preços, padrões de sentimento do cliente e sinais estratégicos por meio de pesquisa estruturada de múltiplas fontes.