Configuración de RouteLLM para el Enrutamiento Rentable de Tareas de IA

✍️ OpenClawRadar📅 Publicado: 9 de marzo de 2026🔗 Source
Configuración de RouteLLM para el Enrutamiento Rentable de Tareas de IA
Ad

Configuración de Docker Compose para una Configuración Híbrida de IA

Un usuario de Reddit publicó una configuración detallada de Docker Compose que implementa lo que ellos llaman "Superinteligencia del Hombre Pobre" - un sistema híbrido de IA que enruta tareas entre modelos locales y en la nube según su complejidad.

Componentes Principales

El sistema utiliza cuatro servicios principales:

  • vscode-openwire: Utiliza la imagen sendmeticket/vscode-openwire:1.0.0 con los puertos 3000 y 3030 expuestos. Esto proporciona acceso a GitHub Copilot a través de OpenWire, aunque la fuente señala que esto puede violar los TOS y sugiere usar una clave API disponible en su lugar.
  • ollama: Ejecuta ollama/ollama:latest con el puerto 11434 expuesto. Descarga y sirve automáticamente el modelo qwen3.5:4b como el modelo local "débil".
  • openroutellm: Utiliza la imagen sendmeticket/openroutellm:1.0.0 en el puerto 6060. Este es el servicio de enrutamiento que decide qué modelo maneja cada solicitud.
  • openclaw: Ejecuta ghcr.io/openclaw/openclaw:latest con los puertos 18789 y 18790 expuestos, sirviendo como la interfaz principal.
Ad

Configuración de RouteLLM

El servicio openroutellm está configurado con parámetros específicos:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

Esta configuración utiliza enrutamiento basado en BERT con un umbral de 0.75 para determinar cuándo enviar tareas al modelo "fuerte" (GPT-4o) versus el modelo local "débil" (Qwen3.5:4b).

Cómo Funciona

El sistema enruta tareas difíciles al modelo de pago GPT-4o a través de OpenWire/Copilot, mientras que las tareas más simples son manejadas por el modelo local Qwen3.5:4b ejecutándose en Ollama. Esto crea lo que el autor describe como "un modelo de IA a prueba de fallos, local primero, con baja inteligencia base pero una inteligencia máxima realmente alta".

Todos los servicios están conectados a través de una red personalizada de Docker (openclaw_net con subred 172.10.10.0/24) e incluyen verificaciones de salud para garantizar la disponibilidad del servicio.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también