Steerling-8B: Модель с атрибуцией на уровне токенов

Архитектура модели и возможности

Steerling-8B построена на основе причинно-следственной дискретной диффузионной модели, что позволяет управлять генерацией на уровне последовательностей токенов, а не только следующего токена. Ключевая особенность архитектуры — декомпозиция эмбеддингов модели на три явных пути: примерно 33 000 контролируемых «известных» концепций, примерно 100 000 «обнаруженных» концепций, которые модель изучает самостоятельно, и остаточный компонент, который фиксирует оставшуюся информацию.

Модель использует функции потерь при обучении, которые обеспечивают маршрутизацию сигнала через концепции без фундаментального ущерба для производительности. Концепции передаются в логиты через линейный путь, позволяя разложить каждое предсказание точно на вклад каждой концепции. Эти вклады можно редактировать во время вывода без переобучения модели.

Показатели производительности и интерпретируемости

Несмотря на обучение с использованием значительно меньших вычислительных ресурсов по сравнению с аналогичными моделями, Steerling-8B демонстрирует конкурентоспособную производительность в стандартных тестах. Модель превосходит как LLaMA2-7B, так и Deepseek-7B по среднему показателю, несмотря на использование меньшего количества FLOP, и остаётся в диапазоне моделей, обученных с использованием в 2–10 раз больше вычислительных ресурсов.

На отложенном валидационном наборе более 84% вклада на уровне токенов приходится на модуль концепций, что указывает на то, что модель использует не только остаточный путь для прогнозирования. При удалении остаточного пути производительность в нескольких задачах LM Harness показывает лишь небольшой эффект, что позволяет предположить, что прогностический сигнал модели в основном маршрутизируется через концепции, а не скрытые каналы.

Steerling может обнаруживать известные концепции в тексте с точностью 96,2% AU (площадь под кривой).

Практические возможности

Для любой группы выходных токенов, сгенерированных Steerling, пользователи могут отследить эти токены до:

Исходного контекста: Конкретных токенов промпта, которые повлияли на вывод
Концепций: Понятных человеку тем в представлениях модели (как тон, например «аналитический, клинический», так и содержание, например «Методологии генетических изменений»)
Обучающих данных: Источников обучающих данных, которые обусловили вывод, показывая распределение по источникам, таким как ArXiv, Wikipedia и FLAN

Модель позволяет выполнять выравнивание во время вывода через управление концепциями, заменяя тысячи примеров обучения безопасности явным управлением на уровне концепций. Она также позволяет подавлять или усиливать определённые концепции во время вывода без переобучения.