Routerly: Самостоятельно размещаемый шлюз для LLM с политиками маршрутизации в реальном времени и контролем бюджета

Routerly — это саморазмещаемый шлюз для LLM, созданный для устранения пробелов в существующих решениях. Разработчик создал его, потому что OpenRouter является облачным, и ему хотелось чего-то, что можно запускать на собственной инфраструктуре, в то время как маршрутизация в LiteLLM казалась слишком ручной, несмотря на хорошую работу с бюджетированием.
Основные возможности
Вместо того чтобы жёстко прописывать конкретную модель в вашем приложении, Routerly позволяет определять политики маршрутизации, которые определяют выбор модели во время выполнения. Доступные политики включают:
- Самая дешёвая
- Самая быстрая
- Самая способная
- Комбинации этих политик
Контроль бюджета работает на уровне проекта с фактическим отслеживанием затрат на токен, обеспечивая детальное управление расходами.
Совместимость и использование
Routerly совместим с OpenAI, что означает, что его можно легко внедрить в существующие рабочие процессы без изменения кода. В частности, упомянутые совместимые инструменты включают:
- Cursor
- LangChain
- Open WebUI
Он работает с "любыми другими" инструментами, которые используют формат API OpenAI.
Текущий статус
Разработчик признаёт, что есть некоторые шероховатости, и ищет обратную связь от сообщества по следующим вопросам:
- Что не работает
- Чего не хватает
- Имеет ли логика маршрутизации смысл на практике
- Решает ли это реальную проблему, с которой сталкиваются люди
Инструмент полностью бесплатный и с открытым исходным кодом, без коммерческой рекламы. Разработчик сосредоточен на практической обратной связи от технического сообщества.
Ресурсы
- Репозиторий на GitHub: https://github.com/Inebrio/Routerly
- Веб-сайт: https://www.routerly.ai
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Rever UI Cloner: AI-оптимизированная альтернатива HTML-скрапингу для репликации пользовательского интерфейса
Rever UI Cloner — это API-эндпоинт, который предоставляет AI-агентам чистые дизайн-макеты вместо сырого HTML, избегая переполнения контекстного окна и проблем с галлюцинациями интерфейса. Он использует платёжный протокол x402, требующий микроплатежа в размере 1 USDC в сети Base для оплаты между агентами.

Qwen2-0.5B, доработанный для локальной автоматизации задач с использованием llama.cpp
Разработчик дообучил Qwen2-0.5B для автоматизации задач с помощью LoRA на ~1000 пользовательских примеров, создав 300-мегабайтную модель GGUF, которая работает локально на CPU через llama.cpp. Модель принимает задачи на естественном языке, определяет их тип и генерирует планы выполнения с CLI-командами и горячими клавишами.

Open-Source Benchmark Runner для тестирования агентов OpenClaw на реальных рабочих процессах
Новый проект с открытым исходным кодом позволяет оценивать агентов OpenClaw на ваших собственных частных, реальных задачах, определенных в YAML, с поддержкой импорта фактических рабочих пространств агентов.

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.
MemAware — это бенчмарк с 900 вопросами по 3 уровням сложности, который проверяет, могут ли ИИ-ассистенты с памятью извлекать релевантный контекст, когда запросы не содержат на него намёков. Результаты показывают, что BM25-поиск набрал 2,8% против 0,8% без памяти, а векторный поиск падает до 0,7% на кросс-доменных связях.