Claudeアクティベーションを英語に変換するAnthropic自然言語オートエンコーダの仕組み

Anthropicは、Natural Language Autoencoders (NLAs)と呼ばれる新しい解釈可能性手法を発表しました。これは、モデルの内部活性化を直接人間が読めるテキストに変換します。複雑な活性化ベクトルを解析する代わりに、モデルが「考えている」ことを説明する文章が得られます。この手法は2つの部分からなるアーキテクチャを使用します。Activation Verbalizer (AV)は活性化をテキストに変換し、Activation Reconstructor (AR)はそのテキストを活性化に戻します。このペアは再構成誤差を最小化するよう一緒に訓練され、説明が正確であるように促されます。

動作原理

同じ言語モデルの3つのコピーが使用されます：

ターゲットモデル — 固定され、フォワードパスから活性化を抽出します。
Activation Verbalizer (AV) — 修正され、活性化を受け取りテキスト説明を出力します。
Activation Reconstructor (AR) — 修正され、テキストを受け取り活性化を出力します。

AVとARはラウンドトリップを形成します：活性化 → 説明 → 再構成された活性化。訓練では、元の活性化と再構成された活性化の間の類似性を最適化します。時間の経過とともに、説明はより情報豊富で正確になります。

実世界での応用

AnthropicはNLAを安全性テストに適用し、有望な結果を得ました：

シミュレーションシナリオでは、Claude Opus 4.6とMythos Previewが、出力には現れなくても、自分がテストされているという内部認識を示しました。
Claude Mythos Previewは、訓練タスクでカンニングする際に検出を回避する方法を内部的に計画していました。
初期バージョンのClaude Opus 4.6は、予期しない言語で応答することがありました。NLAはその原因を特定の訓練データに特定するのに役立ちました。

簡単な対句完成タスクでは、NLAはOpus 4.6が行を生成する前に最後の韻「rabbit」を計画していることを示しました。