Configuración de RouteLLM para el Enrutamiento Rentable de Tareas de IA

Configuración de Docker Compose para una Configuración Híbrida de IA
Un usuario de Reddit publicó una configuración detallada de Docker Compose que implementa lo que ellos llaman "Superinteligencia del Hombre Pobre" - un sistema híbrido de IA que enruta tareas entre modelos locales y en la nube según su complejidad.
Componentes Principales
El sistema utiliza cuatro servicios principales:
- vscode-openwire: Utiliza la imagen
sendmeticket/vscode-openwire:1.0.0con los puertos 3000 y 3030 expuestos. Esto proporciona acceso a GitHub Copilot a través de OpenWire, aunque la fuente señala que esto puede violar los TOS y sugiere usar una clave API disponible en su lugar. - ollama: Ejecuta
ollama/ollama:latestcon el puerto 11434 expuesto. Descarga y sirve automáticamente el modeloqwen3.5:4bcomo el modelo local "débil". - openroutellm: Utiliza la imagen
sendmeticket/openroutellm:1.0.0en el puerto 6060. Este es el servicio de enrutamiento que decide qué modelo maneja cada solicitud. - openclaw: Ejecuta
ghcr.io/openclaw/openclaw:latestcon los puertos 18789 y 18790 expuestos, sirviendo como la interfaz principal.
Configuración de RouteLLM
El servicio openroutellm está configurado con parámetros específicos:
python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4bEsta configuración utiliza enrutamiento basado en BERT con un umbral de 0.75 para determinar cuándo enviar tareas al modelo "fuerte" (GPT-4o) versus el modelo local "débil" (Qwen3.5:4b).
Cómo Funciona
El sistema enruta tareas difíciles al modelo de pago GPT-4o a través de OpenWire/Copilot, mientras que las tareas más simples son manejadas por el modelo local Qwen3.5:4b ejecutándose en Ollama. Esto crea lo que el autor describe como "un modelo de IA a prueba de fallos, local primero, con baja inteligencia base pero una inteligencia máxima realmente alta".
Todos los servicios están conectados a través de una red personalizada de Docker (openclaw_net con subred 172.10.10.0/24) e incluyen verificaciones de salud para garantizar la disponibilidad del servicio.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Simplificando la automatización con envolturas OpenClaw
Los Wrappers de OpenClaw ofrecen una forma eficiente de gestionar agentes de codificación de IA. Descubre cómo estas herramientas se integran fácilmente en marcos existentes con ejemplos de comandos específicos y comentarios de la comunidad.

Construyendo un Asistente de Voz AI Local con SwiftUI y CSM-1B en Apple Silicon
Un desarrollador creó mobiGlas, una aplicación SwiftUI que se empareja con OpenClaw para permitir conversaciones manos libres a través de AirPods, usando clonación de voz local (CSM-1B en M2 Ultra) y sin APIs en la nube.

Servidor MCP de Código Abierto Conecta a Claude con Datos Económicos del Banco Central de Brasil
Sidney Bissoli creó bcb-br-mcp, un servidor MCP con licencia MIT que proporciona a Claude acceso a más de 18,000 series temporales del Banco Central de Brasil (SGS/BCB). El servidor incluye 8 herramientas que cubren tasas de interés, inflación, tipos de cambio, PIB, empleo y datos crediticios.

Rift: Una Mejor Alternativa a Git Worktrees con Instantáneas Instantáneas Copy-on-Write
Rift usa instantáneas de btrfs o APFS para crear copias instantáneas y eficientes en espacio de repositorios Git. Inicialización, creación y listado mediante CLI o FFI de JavaScript.