Настройка RouteLLM для экономичного маршрутизации AI-задач

Конфигурация Docker Compose для гибридной настройки ИИ
Пользователь Reddit опубликовал подробную конфигурацию Docker Compose, реализующую то, что он называет "Суперинтеллектом для бедных" — гибридную систему ИИ, которая маршрутизирует задачи между локальными и облачными моделями в зависимости от сложности.
Основные компоненты
Система использует четыре основных сервиса:
- vscode-openwire: Использует образ
sendmeticket/vscode-openwire:1.0.0с открытыми портами 3000 и 3030. Это обеспечивает доступ к GitHub Copilot через OpenWire, хотя в источнике отмечается, что это может нарушать условия использования, и предлагается использовать доступный API-ключ. - ollama: Запускает
ollama/ollama:latestс открытым портом 11434. Он автоматически загружает и обслуживает модельqwen3.5:4bв качестве локальной "слабой" модели. - openroutellm: Использует образ
sendmeticket/openroutellm:1.0.0на порту 6060. Это сервис маршрутизации, который решает, какая модель обрабатывает каждый запрос. - openclaw: Запускает
ghcr.io/openclaw/openclaw:latestс открытыми портами 18789 и 18790, выступая в качестве основного интерфейса.
Конфигурация RouteLLM
Сервис openroutellm настроен с определёнными параметрами:
python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4bЭта настройка использует маршрутизацию на основе BERT с порогом 0.75 для определения, когда отправлять задачи к "сильной" модели (GPT-4o), а когда к локальной "слабой" модели (Qwen3.5:4b).
Как это работает
Система направляет сложные задачи к платной модели GPT-4o через OpenWire/Copilot, в то время как более простые задачи обрабатываются локальной моделью Qwen3.5:4b, работающей в Ollama. Это создаёт то, что автор описывает как "отказоустойчивую, локально-ориентированную модель ИИ с низким базовым интеллектом, но очень высоким максимальным интеллектом".
Все сервисы соединены через пользовательскую сеть Docker (openclaw_net с подсетью 172.10.10.0/24) и включают проверки работоспособности для обеспечения доступности сервисов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Выпущен клиент ClawControl для iOS для самоуправляемых серверов OpenClaw.
ClawControl v1.50 теперь доступен на iOS в качестве клиента для мобильных устройств, ориентированного на конфиденциальность, для самостоятельно размещенных серверов OpenClaw/Claw. Это приложение с открытым исходным кодом позволяет вести чат в реальном времени с потоковыми ответами, управлять агентами и контролировать сессии с мобильных устройств.

Инструмент чтения Claude Code незаметно уменьшает изображения, вызывая галлюцинации
Инструмент `read` в Claude Code незаметно уменьшает разрешение изображений перед тем, как модель их увидит, что приводит к ухудшению качества вывода и неузнаваемым галлюцинациям при извлечении текста из скриншотов.

OpenClaw интегрирует функции из утечки кода Claude
Пользователь OpenClaw поручил своему боту проанализировать утекший код Claude (реализация на Rust от Instructkr) и выборочно перенес определенные архитектурные паттерны в свою систему OpenClaw. Интеграция сосредоточена на практических улучшениях, таких как автоматическое восстановление контекста при запуске, сжатие диалогов и фреймворк хуков до и после выполнения инструментов.

Открытый PR-агент ревью PrixAI обнаруживает 10/10 внедрённых багов в 6 раз дешевле CodeRabbit
Пользователь Reddit создал PrixAI — агента для проверки PR с открытым исходным кодом, который использует локальные/дешевые модели вывода, чтобы соответствовать функциям CodeRabbit при стоимости в 6 раз ниже, обнаружив все 10 намеренно внесенных проблем в тестовом PR.