Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source
Рассуждение Охрана: Обнаружение циклов на уровне прокси для локального вывода LLM
Ad

Разработчик, запускающий Qwen3.6 MoE за прокси vLLM, столкнулся с распространенной проблемой надежности: неконтролируемые циклы рассуждения, когда модель повторяется внутри блока рассуждения, сжигая токены и останавливая агентов. При скорости 180+ токенов/сек даже 20–30-секундный цикл тратит время GPU и блокирует запросы клиентов. Они создали легковесный защитник, который живет на уровне прокси и применяет детерминированные проверки к потоковому выводу до того, как он достигнет клиента.

Архитектура

Клиент → Прокси → vLLM → Модель

Прокси перехватывает потоковый ответ на выходе из vLLM. Он не изменяет веса модели, не вызывает вторую LLM и не использует эмбеддинги или семантический анализ. Все проверки дешевы и детерминированы.

Что проверяется

  • Ограничения токенов рассуждения (настраиваются для каждого уровня усилий)
  • Обнаружение повторяющихся абзацев
  • Повторение n-грамм с скользящим окном
  • Снятие отпечатков повторяющихся предложений
  • Нечеткое обнаружение открывающих паттернов (ловит циклы вроде "На самом деле, кажется, я нашел...")
  • Путь восстановления "прервать и продолжить"
Ad

Процесс восстановления

Когда защитник срабатывает, он:

  • Останавливает восходящий поток
  • Захватывает рассуждение, произведенное на данный момент
  • Повторно отправляет запрос с этим рассуждением, встроенным как предыдущий контекст ассистента
  • Отключает мышление для продолжения
  • Объединяет статистику использования фазы 1 и фазы 2

Поскольку кэширование префиксов vLLM уже активно, продолжение происходит практически бесшовно. Фаза 2 обычно возобновляется с TTFT около 50–100 мс, так что клиент видит, как рассуждение плавно переходит в финальный ответ, а не зависает.

Наблюдаемость

Прокси логирует каждое срабатывание с:

  • Сработал ли защитник
  • Причина срабатывания
  • Использованный лимит токенов
  • Количество токенов рассуждения
  • Объединенное общее использование
  • Метаданные конца потока

Результат

До: иногда блоки рассуждений на 2000+ токенов, которые никуда не вели. После: модель все еще рассуждает, когда это полезно, но неконтролируемое мышление прерывается и перенаправляется в ответ. Автор описывает это как "ремень безопасности на уровне прокси для локального вывода LLM".

Никаких хирургических вмешательств в модель, никаких дополнительных вызовов LLM — только перехват потока, подсчет токенов, обнаружение циклов и чистый путь восстановления. Защитник проверен от начала до конца через живой прокси на реальных логах трассировки.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Agint: Инструмент командной строки на Rust, который обнаруживает противоречия в файлах инструкций для AI-агентов.
Инструменты

Agint: Инструмент командной строки на Rust, который обнаруживает противоречия в файлах инструкций для AI-агентов.

Agint — это бесплатный инструмент с открытым исходным кодом для командной строки, написанный на Rust, который сканирует файлы с инструкциями, такие как CLAUDE.md и AGENTS.md, на предмет противоречий, отсутствующих ссылок на файлы и проблем синхронизации. Он использует статический анализ для выявления структурных проблем и, опционально, обращается к API Claude для семантического обнаружения противоречий.

OpenClawRadar
Масштабирование автоисследований Карпати с 16 GPU: Результаты и методы
Инструменты

Масштабирование автоисследований Карпати с 16 GPU: Результаты и методы

Команда SkyPilot предоставила Claude Code доступ к 16 GPU в кластере Kubernetes для запуска проекта Autoresearch Карпати. За 8 часов агент отправил около 910 экспериментов, снизил валидационные биты на байт с 1,003 до 0,974 (улучшение на 2,87%) и достиг наилучшего значения потерь на валидации в 9 раз быстрее, чем при последовательном выполнении.

OpenClawRadar
Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет
Инструменты

Плагин Claude Code запускает DOOM в терминале, пока ИИ размышляет

Разработчик создал плагин Claude Code, который отображает DOOM в виде всплывающего оверлея tmux во время обработки ИИ. Плагин использует doom-ascii, терминальный порт исходного кода DOOM, и автоматически запускается/закрывается при запросах.

OpenClawRadar
Нулевая задержка: Постоянный слой памяти для ИИ-агентов через MCP
Инструменты

Нулевая задержка: Постоянный слой памяти для ИИ-агентов через MCP

0Latency — это MCP-сервер, который добавляет постоянную память для Claude и других ИИ-агентов, сохраняя воспоминания между сессиями, чтобы предотвратить потерю контекста. Он работает нативно с Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor и любыми MCP-совместимыми агентами.

OpenClawRadar