ステアリング-8B:トークンレベルの帰属付けを備えた解釈可能な言語モデル

モデルアーキテクチャと機能
Steerling-8Bは、次トークンレベルだけでなく、マルチトークンシーケンス全体で生成を制御できる因果的離散拡散モデルバックボーン上に構築されています。主要な設計は、モデルの埋め込みを3つの明示的な経路に分解します:約33,000の教師あり「既知」概念、約100,000のモデルが独自に学習する「発見」概念、および残りの情報を捕捉する残差コンポーネントです。
モデルは、基本的なパフォーマンスのトレードオフなしに概念を通じた信号ルーティングを保証するトレーニング損失関数を使用します。概念は線形経路を通じてロジットに入力され、すべての予測が正確に概念ごとの寄与に分解できます。これらの寄与は、再トレーニングなしで推論時に編集可能です。
パフォーマンスと解釈可能性の指標
同等のモデルよりも大幅に少ない計算量でトレーニングされているにもかかわらず、Steerling-8Bは標準的なベンチマークで競争力のあるパフォーマンスを達成しています。このモデルは、使用FLOPsが少ないにもかかわらず、全体平均でLLaMA2-7BとDeepseek-7Bの両方を上回り、2〜10倍の計算量でトレーニングされたモデルの範囲内に留まっています。
ホールドアウト検証セットでは、トークンレベルの寄与の84%以上が概念モジュールから来ており、モデルが予測を行うために残差だけを使用していないことを示しています。残差経路を除去した場合、いくつかのLM Harnessタスクでのパフォーマンスはわずかな影響しか示さず、モデルの予測信号が主に隠れたチャネルではなく概念を通じてルーティングされていることを示唆しています。
Steerlingは、テキスト内の既知概念を96.2%のAU(曲線下面積)で検出できます。
実用的な機能
Steerlingが生成する出力トークンのグループについて、ユーザーはこれらのトークンを以下にトレースできます:
- 入力コンテキスト:出力に影響を与えた特定のプロンプトトークン
- 概念:モデルの表現における人間が理解可能なトピック(「分析的、臨床的」などのトーンや「遺伝子改変方法論」などのコンテンツ)
- トレーニングデータ:出力を駆動したトレーニングデータソース(ArXiv、Wikipedia、FLANなどのソース間での分布を示す)
モデルは、概念制御による推論時のアライメントを可能にし、数千の安全性トレーニング例を明示的な概念レベルの制御に置き換えます。また、再トレーニングなしで推論時に特定の概念を抑制または増幅することも可能です。
利用可能な成果物
- Hugging Faceで利用可能なモデル重み
- GitHub上のコンパニオンコード
- PyPI上のパッケージ
📖 完全なソースを読む: HN AI Agents
👀 See Also

同じリポジトリでGitワークツリーを使用して2つのClaude Codeエージェントを実行する
Redditユーザーが、git worktreeを使って同じコードベース上で複数のClaude Codeエージェントを並行実行し、ファイル競合を回避して独立したエージェントセッションを実現する方法を詳述しています。

Audacity MCPサーバーがClaude AIに完全な音声編集制御を提供
開発者が、Claude AIをAudacityに接続するMCPサーバーを作成し、自然言語による音声編集コマンド用に99のツールを提供しています。このオープンソースツールは、Claude Desktop、Claude Code、またはCursorで動作します。

Zot Chromeオペレーター:サイドパネルからターミナルAIエージェントにブラウザ操作を任せる
Chrome拡張機能とローカルブリッジにより、ターミナルベースのコーディングAI「zot」がbrowser_actionツールでブラウザタブを操作できるようにします。2つのコマンドでインストール可能で、zot自体の変更は不要です。

カスタムReddit MCP for Claude Desktop/コードがGitHubで共有されています
開発者が、Claude DesktopとClaude Code向けにカスタム構築したReddit MCPを公開しました。このツールは、Redditでのリサーチを直接ワークフローに統合するためのもので、GitHubでドキュメントが公開されており、無料で利用できます。