Оркестра: Стоимостно-ориентированный слой маршрутизации LLM для OpenClaw сокращает затраты на API на 60-80%

Что делает Orkestra
Orkestra — это экономически осознанный слой маршрутизации LLM, созданный для OpenClaw, который снижает затраты на API на 60–80%. Это модульная архитектура, которая располагается перед вызовами моделей и решает, какой уровень должен обрабатывать каждый запрос, на основе семантического сходства.
Как это работает
Когда поступает промпт, он преобразуется в эмбеддинг и проходит через легковесный классификатор KNN, обученный на ранее размеченных рабочих нагрузках. На основе семантического сходства маршрутизатор классифицирует его как budget, balanced или premium и соответствующим образом перенаправляет вызов.
Нет переписывания промптов и нет сложного дерева правил — только семантическая классификация в момент вызова. Снижение затрат на API происходит в основном за счёт предотвращения автоматического направления простых промптов к самым дорогим моделям.
Интеграция с OpenClaw
Orkestra подключается как навык OpenClaw через локальный прокси, поэтому существующие конвейеры остаются полностью нетронутыми. Агент вызывает его через bash/curl на OpenAI-совместимый эндпоинт по адресу 127.0.0.1:8765.
Ответ включает полную прозрачность затрат с полями _orkestra.cost и _orkestra.savings_percent.
Поддерживаемые провайдеры и конфигурация
- Поддерживаемые провайдеры: Google (Gemini), Anthropic (Claude), OpenAI
- Маршрутизация между бюджетным/сбалансированным/премиум-уровнями внутри каждого провайдера
- Поддерживает мультипровайдерный режим для всех трёх провайдеров
- Репозиторий и интеграция с OpenClaw доступны по адресу: github.com/imperativelabs/orkestra
- См.
integrations/openclaw/для файлов навыка, прокси и примеров конфигурации
📖 Read the full source: r/openclaw
👀 Смотрите также

FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.
FOMOE (Fast Opportunistic Mixture of Experts) позволяет запускать флагманскую модель Qwen3.5 с 397 миллиардами параметров со скоростью 5-9 токенов/сек на потребительском оборудовании с использованием двух видеокарт за $500, 32 ГБ ОЗУ и накопителя NVMe с квантованием Q4_K_M.

ClawProxy: Самостоятельно размещаемый прокси-маршрутизатор для ротации бесплатных API-ключей
ClawProxy — это самодостаточный прокси-маршрутизатор для ИИ, который управляет несколькими бесплатными ключами API ИИ, чтобы избежать ограничений по частоте запросов и перегрузки провайдеров. Он включает ротацию ключей на лету, взвешенную балансировку нагрузки, трансляцию моделей и панель управления с глубоко проанализированными логами.

llm-idle-timeout срабатывает через 2 минуты на N100/WSL2, несмотря на настройку timeoutSeconds
Пользователь сообщает, что сторожевой таймер простоя в OpenClaw срабатывает через 2 минуты на оборудовании N100/WSL2, игнорируя настройку timeoutSeconds=300, из-за медленного запуска шлюза (более 45 секунд) и отсутствия конфигурируемого параметра noOutputTimeoutMs.

Модель Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2 выпущена с конфигурацией для LM Studio
Теперь доступна объединённая нецензурированная модель, сочетающая архитектуру Qwen3.5-9B с обучающими данными Claude 4.6 Opus, с указанием конкретных настроек LM Studio 0.4.7 для оптимальной производительности, включая температуру 0.7 и выборку top K 20.