トークンをトレース可能なSteerling-8B：解釈可能な80億言語モデル

モデルアーキテクチャと機能

Steerling-8Bは、次トークンレベルだけでなく、マルチトークンシーケンス全体で生成を制御できる因果的離散拡散モデルバックボーン上に構築されています。主要な設計は、モデルの埋め込みを3つの明示的な経路に分解します：約33,000の教師あり「既知」概念、約100,000のモデルが独自に学習する「発見」概念、および残りの情報を捕捉する残差コンポーネントです。

モデルは、基本的なパフォーマンスのトレードオフなしに概念を通じた信号ルーティングを保証するトレーニング損失関数を使用します。概念は線形経路を通じてロジットに入力され、すべての予測が正確に概念ごとの寄与に分解できます。これらの寄与は、再トレーニングなしで推論時に編集可能です。

パフォーマンスと解釈可能性の指標

同等のモデルよりも大幅に少ない計算量でトレーニングされているにもかかわらず、Steerling-8Bは標準的なベンチマークで競争力のあるパフォーマンスを達成しています。このモデルは、使用FLOPsが少ないにもかかわらず、全体平均でLLaMA2-7BとDeepseek-7Bの両方を上回り、2〜10倍の計算量でトレーニングされたモデルの範囲内に留まっています。

ホールドアウト検証セットでは、トークンレベルの寄与の84%以上が概念モジュールから来ており、モデルが予測を行うために残差だけを使用していないことを示しています。残差経路を除去した場合、いくつかのLM Harnessタスクでのパフォーマンスはわずかな影響しか示さず、モデルの予測信号が主に隠れたチャネルではなく概念を通じてルーティングされていることを示唆しています。

Steerlingは、テキスト内の既知概念を96.2%のAU（曲線下面積）で検出できます。

実用的な機能

Steerlingが生成する出力トークンのグループについて、ユーザーはこれらのトークンを以下にトレースできます：

入力コンテキスト：出力に影響を与えた特定のプロンプトトークン
概念：モデルの表現における人間が理解可能なトピック（「分析的、臨床的」などのトーンや「遺伝子改変方法論」などのコンテンツ）
トレーニングデータ：出力を駆動したトレーニングデータソース（ArXiv、Wikipedia、FLANなどのソース間での分布を示す）

モデルは、概念制御による推論時のアライメントを可能にし、数千の安全性トレーニング例を明示的な概念レベルの制御に置き換えます。また、再トレーニングなしで推論時に特定の概念を抑制または増幅することも可能です。

利用可能な成果物

Hugging Faceで利用可能なモデル重み
GitHub上のコンパニオンコード
PyPI上のパッケージ

📖 完全なソースを読む： HN AI Agents

ステアリング-8B：トークンレベルの帰属付けを備えた解釈可能な言語モデル

モデルアーキテクチャと機能

パフォーマンスと解釈可能性の指標

実用的な機能

利用可能な成果物

👀 See Also

フェムトボット：低リソース環境向けの効率的なRustエージェント

htmLLM-124M v2 リリース：特化型HTML/Bootstrapオートコンプリートモデル

ChatGPTプロジェクト移行ギャップの回避策：スクリプトとプロンプトのエクスポート

ClaudeOrb：Claude APIの使用状況をリアルタイムで監視するChrome拡張機能