Оркестра: Стоимостно-ориентированный слой маршрутизации LLM для OpenClaw сокращает затраты на API на 60-80%

✍️ OpenClawRadar📅 Опубликовано: 28 февраля 2026 г.🔗 Source
Оркестра: Стоимостно-ориентированный слой маршрутизации LLM для OpenClaw сокращает затраты на API на 60-80%
Ad

Что делает Orkestra

Orkestra — это экономически осознанный слой маршрутизации LLM, созданный для OpenClaw, который снижает затраты на API на 60–80%. Это модульная архитектура, которая располагается перед вызовами моделей и решает, какой уровень должен обрабатывать каждый запрос, на основе семантического сходства.

Как это работает

Когда поступает промпт, он преобразуется в эмбеддинг и проходит через легковесный классификатор KNN, обученный на ранее размеченных рабочих нагрузках. На основе семантического сходства маршрутизатор классифицирует его как budget, balanced или premium и соответствующим образом перенаправляет вызов.

Нет переписывания промптов и нет сложного дерева правил — только семантическая классификация в момент вызова. Снижение затрат на API происходит в основном за счёт предотвращения автоматического направления простых промптов к самым дорогим моделям.

Ad

Интеграция с OpenClaw

Orkestra подключается как навык OpenClaw через локальный прокси, поэтому существующие конвейеры остаются полностью нетронутыми. Агент вызывает его через bash/curl на OpenAI-совместимый эндпоинт по адресу 127.0.0.1:8765.

Ответ включает полную прозрачность затрат с полями _orkestra.cost и _orkestra.savings_percent.

Поддерживаемые провайдеры и конфигурация

  • Поддерживаемые провайдеры: Google (Gemini), Anthropic (Claude), OpenAI
  • Маршрутизация между бюджетным/сбалансированным/премиум-уровнями внутри каждого провайдера
  • Поддерживает мультипровайдерный режим для всех трёх провайдеров
  • Репозиторий и интеграция с OpenClaw доступны по адресу: github.com/imperativelabs/orkestra
  • См. integrations/openclaw/ для файлов навыка, прокси и примеров конфигурации

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.
Инструменты

FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.

FOMOE (Fast Opportunistic Mixture of Experts) позволяет запускать флагманскую модель Qwen3.5 с 397 миллиардами параметров со скоростью 5-9 токенов/сек на потребительском оборудовании с использованием двух видеокарт за $500, 32 ГБ ОЗУ и накопителя NVMe с квантованием Q4_K_M.

OpenClawRadar
ClawProxy: Самостоятельно размещаемый прокси-маршрутизатор для ротации бесплатных API-ключей
Инструменты

ClawProxy: Самостоятельно размещаемый прокси-маршрутизатор для ротации бесплатных API-ключей

ClawProxy — это самодостаточный прокси-маршрутизатор для ИИ, который управляет несколькими бесплатными ключами API ИИ, чтобы избежать ограничений по частоте запросов и перегрузки провайдеров. Он включает ротацию ключей на лету, взвешенную балансировку нагрузки, трансляцию моделей и панель управления с глубоко проанализированными логами.

OpenClawRadar
llm-idle-timeout срабатывает через 2 минуты на N100/WSL2, несмотря на настройку timeoutSeconds
Инструменты

llm-idle-timeout срабатывает через 2 минуты на N100/WSL2, несмотря на настройку timeoutSeconds

Пользователь сообщает, что сторожевой таймер простоя в OpenClaw срабатывает через 2 минуты на оборудовании N100/WSL2, игнорируя настройку timeoutSeconds=300, из-за медленного запуска шлюза (более 45 секунд) и отсутствия конфигурируемого параметра noOutputTimeoutMs.

OpenClawRadar
Модель Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2 выпущена с конфигурацией для LM Studio
Инструменты

Модель Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2 выпущена с конфигурацией для LM Studio

Теперь доступна объединённая нецензурированная модель, сочетающая архитектуру Qwen3.5-9B с обучающими данными Claude 4.6 Opus, с указанием конкретных настроек LM Studio 0.4.7 для оптимальной производительности, включая температуру 0.7 и выборку top K 20.

OpenClawRadar