Использование скрытого сигнала агентства (Â) в LLM для улучшения вызова инструментов

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
Использование скрытого сигнала агентства (Â) в LLM для улучшения вызова инструментов
Ad

При отладке сбоев агента ReAct с Qwen3 разработчик обнаружил, что скрытые состояния прямо перед вызовом инструментов линейно отделимы от состояний без инструментов с AUC > 0,94. Это направление в латентном пространстве, названное Â (от «агентности»), существует в моделях разных размеров от 1,7B до 8B и предсказывает вызов инструментов с помощью простого линейного зонда.

Как использовать сигнал агентности

Во время вывода проецируйте каждое скрытое состояние на Â. Если проекция превышает порог θ, модель хочет вызвать инструмент, даже если не выражает это текстуально. Затем можно принудительно вызвать инструмент.

# Во время вывода (псевдокод)
hidden_state = get_middle_layer_state(model, input_text)
proj = np.dot(hidden_state, Â)
if proj > threshold:
    # Модель хочет действовать → принудительный вызов инструмента
    tool = choose_tool() # можно обучить или использовать эвристику
    result = execute_tool(tool)
else:
    # Обычная генерация
    output = model.generate(input_text)

Результаты производительности

Протестировано на 40 разнообразных задачах (поиск, код, файлы, коммуникация, данные) с моделями Qwen3:

  • Qwen3-1.7B: 26,7% → 85% (+58%)
  • Qwen3-8B: 52,5% → 76,3% (+23%)

Режим отказа «без инструментов» снизился с 43% до 2,6%. Меньшие модели выигрывают больше, потому что их текстовое декодирование слабее, но геометрический сигнал одинаково силён.

Ad

Как извлечь Â

Три метода:

  • Вариант 1: Из собственных трассировок - Вычислить нормализованную среднюю разницу между скрытыми состояниями с инструментами и без
  • Вариант 2: С помощью контрастных промптов - Запустить 15 пар промптов (один требует инструмент, другой пассивный) через вашу модель и взять среднюю разницу на среднем слое
  • Вариант 3: Использовать предварительно вычисленные направления - Использовать направления Â, извлечённые для моделей Qwen3 и опубликованные в репозитории

Упакованная реализация

Открытие упаковано в библиотеку для лёгкого повторного использования:

bash
pip install a-hat-optimizer
python
from a_hat_optimizer import AHat

# Автоматическое извлечение из любой модели HF в одну строку
ahat = AHat.from_model("Qwen/Qwen3-8B")

# Или загрузить предварительно извлечённое
ahat = AHat.from_file("my_ahat_dir/")

# Использовать в вашем агенте
should_call, confidence = ahat.predict(hidden_state)
if should_call:
    print(f"Принудительный вызов инструмента (уверенность: {confidence:.2f})")

Библиотека обрабатывает автоматическое извлечение через контрастные промпты, 4 стратегии калибровки (середина, F1, Йоден, процентиль), пакетное предсказание и сохранение/загрузку с метаданными, включая AUC и информацию о слоях.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

CostClaw: Бесплатная Локальная Панель Мониторинга Расходов для Агентов OpenClaw
Инструменты

CostClaw: Бесплатная Локальная Панель Мониторинга Расходов для Агентов OpenClaw

CostClaw — это бесплатный локальный плагин, который перехватывает все вызовы LLM через нативные хуки OpenClaw и предоставляет панель управления с разбивкой по моделям, затратами на сессию и графиками почасовых расходов. Разработчик обнаружил, что его агент heartbeat запускал Claude Sonnet каждые 3 минуты круглосуточно, что обходилось в $60 в месяц, а переход на Haiku сократил счёт примерно на 65%.

OpenClawRadar
Локальные модели Qwen достигают автоматизации браузера с пошаговым планированием и компактным DOM.
Инструменты

Локальные модели Qwen достигают автоматизации браузера с пошаговым планированием и компактным DOM.

Разработчик обнаружил, что небольшие локальные языковые модели, такие как Qwen 8B и 4B, успешно справляются с автоматизацией браузера, используя пошаговое планирование вместо предварительных многошаговых планов, в сочетании с компактным семантическим представлением DOM, которое сокращает использование токенов с 50–100K+ до ~15K для полных процессов.

OpenClawRadar
Выпущен навык OpenClaw SEO Audit для технического анализа веб-сайтов.
Инструменты

Выпущен навык OpenClaw SEO Audit для технического анализа веб-сайтов.

Новый навык OpenClaw выполняет комплексные SEO-аудиты с помощью команды 'seo audit [url]', проверяя техническое SEO, качество контента, элементы на странице, структурированные данные, метрики производительности, изображения и готовность к AI-поиску, выдавая оценку здоровья и приоритизированный план действий.

OpenClawRadar
Tatu: Открытый слой безопасности для Claude, блокирующий секреты и деструктивные команды в блоках кода
Инструменты

Tatu: Открытый слой безопасности для Claude, блокирующий секреты и деструктивные команды в блоках кода

Tatu — это система перехвата с открытым исходным кодом, которая в реальном времени перехватывает действия Claude Code, чтобы блокировать утечку секретов, помечать персональные данные и отклонять деструктивные команды до их выполнения. Установка осуществляется через pip/pipx командой 'tatu-hook init' для включения режима аудита.

OpenClawRadar