Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM

Разработчик, запускающий Qwen3.6 MoE за прокси vLLM, столкнулся с распространенной проблемой надежности: неконтролируемые циклы рассуждения, когда модель повторяется внутри блока рассуждения, сжигая токены и останавливая агентов. При скорости 180+ токенов/сек даже 20–30-секундный цикл тратит время GPU и блокирует запросы клиентов. Они создали легковесный защитник, который живет на уровне прокси и применяет детерминированные проверки к потоковому выводу до того, как он достигнет клиента.
Архитектура
Клиент → Прокси → vLLM → Модель
Прокси перехватывает потоковый ответ на выходе из vLLM. Он не изменяет веса модели, не вызывает вторую LLM и не использует эмбеддинги или семантический анализ. Все проверки дешевы и детерминированы.
Что проверяется
- Ограничения токенов рассуждения (настраиваются для каждого уровня усилий)
- Обнаружение повторяющихся абзацев
- Повторение n-грамм с скользящим окном
- Снятие отпечатков повторяющихся предложений
- Нечеткое обнаружение открывающих паттернов (ловит циклы вроде "На самом деле, кажется, я нашел...")
- Путь восстановления "прервать и продолжить"
Процесс восстановления
Когда защитник срабатывает, он:
- Останавливает восходящий поток
- Захватывает рассуждение, произведенное на данный момент
- Повторно отправляет запрос с этим рассуждением, встроенным как предыдущий контекст ассистента
- Отключает мышление для продолжения
- Объединяет статистику использования фазы 1 и фазы 2
Поскольку кэширование префиксов vLLM уже активно, продолжение происходит практически бесшовно. Фаза 2 обычно возобновляется с TTFT около 50–100 мс, так что клиент видит, как рассуждение плавно переходит в финальный ответ, а не зависает.
Наблюдаемость
Прокси логирует каждое срабатывание с:
- Сработал ли защитник
- Причина срабатывания
- Использованный лимит токенов
- Количество токенов рассуждения
- Объединенное общее использование
- Метаданные конца потока
Результат
До: иногда блоки рассуждений на 2000+ токенов, которые никуда не вели. После: модель все еще рассуждает, когда это полезно, но неконтролируемое мышление прерывается и перенаправляется в ответ. Автор описывает это как "ремень безопасности на уровне прокси для локального вывода LLM".
Никаких хирургических вмешательств в модель, никаких дополнительных вызовов LLM — только перехват потока, подсчет токенов, обнаружение циклов и чистый путь восстановления. Защитник проверен от начала до конца через живой прокси на реальных логах трассировки.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Agint: Инструмент командной строки на Rust, который обнаруживает противоречия в файлах инструкций для AI-агентов.
Agint — это бесплатный инструмент с открытым исходным кодом для командной строки, написанный на Rust, который сканирует файлы с инструкциями, такие как CLAUDE.md и AGENTS.md, на предмет противоречий, отсутствующих ссылок на файлы и проблем синхронизации. Он использует статический анализ для выявления структурных проблем и, опционально, обращается к API Claude для семантического обнаружения противоречий.

Масштабирование автоисследований Карпати с 16 GPU: Результаты и методы
Команда SkyPilot предоставила Claude Code доступ к 16 GPU в кластере Kubernetes для запуска проекта Autoresearch Карпати. За 8 часов агент отправил около 910 экспериментов, снизил валидационные биты на байт с 1,003 до 0,974 (улучшение на 2,87%) и достиг наилучшего значения потерь на валидации в 9 раз быстрее, чем при последовательном выполнении.

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет
Разработчик создал плагин Claude Code, который отображает DOOM в виде всплывающего оверлея tmux во время обработки ИИ. Плагин использует doom-ascii, терминальный порт исходного кода DOOM, и автоматически запускается/закрывается при запросах.

Нулевая задержка: Постоянный слой памяти для ИИ-агентов через MCP
0Latency — это MCP-сервер, который добавляет постоянную память для Claude и других ИИ-агентов, сохраняя воспоминания между сессиями, чтобы предотвратить потерю контекста. Он работает нативно с Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor и любыми MCP-совместимыми агентами.