Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов

✍️ OpenClawRadar📅 Опубликовано: 24 февраля 2026 г.🔗 Source
Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов
Ad

Архитектура модели и возможности

Steerling-8B построена на основе причинно-следственной дискретной диффузионной модели, что позволяет управлять генерацией на уровне последовательностей токенов, а не только следующего токена. Ключевая особенность архитектуры — декомпозиция эмбеддингов модели на три явных пути: примерно 33 000 контролируемых «известных» концепций, примерно 100 000 «обнаруженных» концепций, которые модель изучает самостоятельно, и остаточный компонент, который фиксирует оставшуюся информацию.

Модель использует функции потерь при обучении, которые обеспечивают маршрутизацию сигнала через концепции без фундаментального ущерба для производительности. Концепции передаются в логиты через линейный путь, позволяя разложить каждое предсказание точно на вклад каждой концепции. Эти вклады можно редактировать во время вывода без переобучения модели.

Показатели производительности и интерпретируемости

Несмотря на обучение с использованием значительно меньших вычислительных ресурсов по сравнению с аналогичными моделями, Steerling-8B демонстрирует конкурентоспособную производительность в стандартных тестах. Модель превосходит как LLaMA2-7B, так и Deepseek-7B по среднему показателю, несмотря на использование меньшего количества FLOP, и остаётся в диапазоне моделей, обученных с использованием в 2–10 раз больше вычислительных ресурсов.

На отложенном валидационном наборе более 84% вклада на уровне токенов приходится на модуль концепций, что указывает на то, что модель использует не только остаточный путь для прогнозирования. При удалении остаточного пути производительность в нескольких задачах LM Harness показывает лишь небольшой эффект, что позволяет предположить, что прогностический сигнал модели в основном маршрутизируется через концепции, а не скрытые каналы.

Steerling может обнаруживать известные концепции в тексте с точностью 96,2% AU (площадь под кривой).

Ad

Практические возможности

Для любой группы выходных токенов, сгенерированных Steerling, пользователи могут отследить эти токены до:

  • Исходного контекста: Конкретных токенов промпта, которые повлияли на вывод
  • Концепций: Понятных человеку тем в представлениях модели (как тон, например «аналитический, клинический», так и содержание, например «Методологии генетических изменений»)
  • Обучающих данных: Источников обучающих данных, которые обусловили вывод, показывая распределение по источникам, таким как ArXiv, Wikipedia и FLAN

Модель позволяет выполнять выравнивание во время вывода через управление концепциями, заменяя тысячи примеров обучения безопасности явным управлением на уровне концепций. Она также позволяет подавлять или усиливать определённые концепции во время вывода без переобучения.

Доступные артефакты

  • Веса модели доступны на Hugging Face
  • Сопутствующий код на GitHub
  • Пакет на PyPI

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Плагин Spectyra для OpenClaw: оптимизация затрат на ИИ в реальном времени за счет анализа полного потока запросов
Инструменты

Плагин Spectyra для OpenClaw: оптимизация затрат на ИИ в реальном времени за счет анализа полного потока запросов

Плагин Spectyra снижает затраты на AI API, выявляя в реальном времени скрытые потери, такие как повторные вызовы, избыточный контекст и неправильное использование дорогих моделей.

OpenClawRadar
Xmloxide: Реализация libxml2 на Rust, созданная с помощью ИИ-агента
Инструменты

Xmloxide: Реализация libxml2 на Rust, созданная с помощью ИИ-агента

Xmloxide — это чистая реализация на языке Rust не поддерживаемой более библиотеки libxml2, созданная с помощью Claude Code для прохождения тестов на совместимость. Она обеспечивает безопасное с точки зрения памяти парсинг XML/HTML с C API для прямой замены.

OpenClawRadar
Открытый крючок оценки доверия для Claude Code отслеживает сессии и блокирует защищённые пути
Инструменты

Открытый крючок оценки доверия для Claude Code отслеживает сессии и блокирует защищённые пути

Разработчик создал Python-хук, который оценивает каждую сессию Claude Code по параметрам надежности, охвата и стоимости, блокирует доступ к защищенным путям, таким как .env файлы, и использует цепочки хэшей для обнаружения несанкционированных изменений. Этот однодокументный инструмент доступен на GitHub.

OpenClawRadar
Claude Academy: Бесплатный учебный курс по программированию, работающий внутри Claude Desktop
Инструменты

Claude Academy: Бесплатный учебный курс по программированию, работающий внутри Claude Desktop

Разработчик создал Claude Academy — бесплатный учебный курс по программированию, который полностью работает во вкладке Code в Claude Desktop. Система использует три команды для проведения 64 структурированных уроков по основам веб-разработки, с отслеживанием прогресса и созданием реальных проектов.

OpenClawRadar