Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source

Разработчик, запускающий Qwen3.6 MoE за прокси vLLM, столкнулся с распространенной проблемой надежности: неконтролируемые циклы рассуждения, когда модель повторяется внутри блока рассуждения, сжигая токены и останавливая агентов. При скорости 180+ токенов/сек даже 20–30-секундный цикл тратит время GPU и блокирует запросы клиентов. Они создали легковесный защитник, который живет на уровне прокси и применяет детерминированные проверки к потоковому выводу до того, как он достигнет клиента.

Архитектура

Клиент → Прокси → vLLM → Модель

Прокси перехватывает потоковый ответ на выходе из vLLM. Он не изменяет веса модели, не вызывает вторую LLM и не использует эмбеддинги или семантический анализ. Все проверки дешевы и детерминированы.

Что проверяется

Ограничения токенов рассуждения (настраиваются для каждого уровня усилий)
Обнаружение повторяющихся абзацев
Повторение n-грамм с скользящим окном
Снятие отпечатков повторяющихся предложений
Нечеткое обнаружение открывающих паттернов (ловит циклы вроде "На самом деле, кажется, я нашел...")
Путь восстановления "прервать и продолжить"

Процесс восстановления

Когда защитник срабатывает, он:

Останавливает восходящий поток
Захватывает рассуждение, произведенное на данный момент
Повторно отправляет запрос с этим рассуждением, встроенным как предыдущий контекст ассистента
Отключает мышление для продолжения
Объединяет статистику использования фазы 1 и фазы 2

Поскольку кэширование префиксов vLLM уже активно, продолжение происходит практически бесшовно. Фаза 2 обычно возобновляется с TTFT около 50–100 мс, так что клиент видит, как рассуждение плавно переходит в финальный ответ, а не зависает.

Наблюдаемость

Прокси логирует каждое срабатывание с:

Сработал ли защитник
Причина срабатывания
Использованный лимит токенов
Количество токенов рассуждения
Объединенное общее использование
Метаданные конца потока

Результат

До: иногда блоки рассуждений на 2000+ токенов, которые никуда не вели. После: модель все еще рассуждает, когда это полезно, но неконтролируемое мышление прерывается и перенаправляется в ответ. Автор описывает это как "ремень безопасности на уровне прокси для локального вывода LLM".

Никаких хирургических вмешательств в модель, никаких дополнительных вызовов LLM — только перехват потока, подсчет токенов, обнаружение циклов и чистый путь восстановления. Защитник проверен от начала до конца через живой прокси на реальных логах трассировки.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Инструменты

Agint: Инструмент командной строки на Rust, который обнаруживает противоречия в файлах инструкций для AI-агентов.

Agint — это бесплатный инструмент с открытым исходным кодом для командной строки, написанный на Rust, который сканирует файлы с инструкциями, такие как CLAUDE.md и AGENTS.md, на предмет противоречий, отсутствующих ссылок на файлы и проблем синхронизации. Он использует статический анализ для выявления структурных проблем и, опционально, обращается к API Claude для семантического обнаружения противоречий.

17 апр. 2026 г., 03:45 UTC

OpenClawRadar

Инструменты

Масштабирование автоисследований Карпати с 16 GPU: Результаты и методы

Команда SkyPilot предоставила Claude Code доступ к 16 GPU в кластере Kubernetes для запуска проекта Autoresearch Карпати. За 8 часов агент отправил около 910 экспериментов, снизил валидационные биты на байт с 1,003 до 0,974 (улучшение на 2,87%) и достиг наилучшего значения потерь на валидации в 9 раз быстрее, чем при последовательном выполнении.

19 мар. 2026 г., 23:45 UTC

OpenClawRadar

Инструменты

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет

Разработчик создал плагин Claude Code, который отображает DOOM в виде всплывающего оверлея tmux во время обработки ИИ. Плагин использует doom-ascii, терминальный порт исходного кода DOOM, и автоматически запускается/закрывается при запросах.

17 апр. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Нулевая задержка: Постоянный слой памяти для ИИ-агентов через MCP

0Latency — это MCP-сервер, который добавляет постоянную память для Claude и других ИИ-агентов, сохраняя воспоминания между сессиями, чтобы предотвратить потерю контекста. Он работает нативно с Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor и любыми MCP-совместимыми агентами.

13 апр. 2026 г., 16:45 UTC

OpenClawRadar