LLMのエージェンシー信号「Â」でツール呼び出し性能が58%向上

Qwen3を使ったReActエージェントの失敗をデバッグしている際、開発者はツール呼び出し直前の隠れ状態が非ツール状態から線形分離可能であり、AUC > 0.94であることを発見しました。この潜在空間内の方向は「Â」（「エージェンシー」の意）と呼ばれ、1.7Bから8Bまでのモデルサイズにわたって存在し、単純な線形プローブだけでツール呼び出しを予測します。

エージェンシー信号の使い方

推論中、各隠れ状態をÂに投影します。投影値が閾値θを超えた場合、モデルはテキストで表現していなくてもツールを呼び出したいと考えています。その後、ツール呼び出しを強制できます。

# 推論時（疑似コード）
hidden_state = get_middle_layer_state(model, input_text)
proj = np.dot(hidden_state, Â)
if proj > threshold:
    # モデルが行動したい → ツール呼び出しを強制
    tool = choose_tool() # 学習済みまたはヒューリスティック
    result = execute_tool(tool)
else:
    # 通常の生成
    output = model.generate(input_text)

性能結果

Qwen3モデルで40の多様なタスク（検索、コード、ファイル、通信、データ）をテスト：

Qwen3-1.7B: 26.7% → 85%（+58%の改善）
Qwen3-8B: 52.5% → 76.3%（+23%の改善）

「ツール未使用」の失敗モードは43%から2.6%に減少しました。小規模モデルはテキストデコーディングが弱いため恩恵が大きく、幾何学的信号は同様に強力です。

Âの抽出方法

3つの方法：

オプション1: 独自のトレースから - ツールと非ツールの隠れ状態間の正規化平均差を計算
オプション2: 対照的プロンプト経由 - 15組のプロンプト（ツールが必要なものと受動的なもの）をモデルで実行し、中間層の平均差を取得
オプション3: 事前計算済み方向を使用 - リポジトリで共有されているQwen3モデル用に抽出されたÂ方向を使用

パッケージ化された実装

この発見は再利用しやすいライブラリにパッケージ化されました：

bash
pip install a-hat-optimizer

python
from a_hat_optimizer import AHat

# 任意のHFモデルから1行で自動抽出
ahat = AHat.from_model("Qwen/Qwen3-8B")

# または事前抽出済みをロード
ahat = AHat.from_file("my_ahat_dir/")

# エージェントで使用
should_call, confidence = ahat.predict(hidden_state)
if should_call:
    print(f"ツール呼び出しを強制（信頼度: {confidence:.2f}）")

ライブラリは対照的プロンプトによる自動抽出、4つのキャリブレーション戦略（中点、F1、ユーデン、パーセンタイル）、バッチ予測、AUCや層情報を含むメタデータ付きの保存/読み込みを処理します。

📖 完全なソースを読む： r/LocalLLaMA