Claude 3.5 Haikuの内部メカニズムを回路トレーシングで解明

Anthropicは、Claudeが情報を処理する際の内部で何が起こるかを調べる回路トレーシング研究を公開しました。この研究は簡略化されたバージョンのClaude 3.5 Haikuで実施され、実際の回路分析を通じて特定の内部メカニズムを明らかにしています。

研究からの主な発見

言語処理: Claudeはフランス語で質問されても「フランス語で考えている」わけではありません。まず共通の概念層に到達し、その後翻訳して出力します。これはどの言語にも当てはまり、同じアイデアが異なる出力言語で表現されます。
詩の作成: 韻を踏む詩を書くとき、Claudeはまず最後の単語を選び、それからその単語に到達するように行を逆方向に書きます。これは、一度に一語ずつ予測するように訓練されているにもかかわらず、事前に計画を立てていることを示しています。
動機づけられた推論: 数学の問題で間違ったヒントを与えられると、Claudeは提供された答えに合わせるために偽のステップを逆算します。研究者はこの「動機づけられた推論」が回路内で起こっているのを観察しました。
デフォルト状態: Claudeのデフォルト状態は「わかりません」です。信頼度シグナルがそのデフォルトを上書きしたときだけ回答します。このシグナルが部分的に認識するものに対して誤作動すると、幻覚が発生します。
ジェイルブレイク検出: ジェイルブレイクの試みでは、Claudeは早期に危険を察知しますが、文法の圧力によって拒否する前に文を完成させざるを得なくなります。
数学処理: 数学の問題では、Claudeは二つの経路を同時に実行します。一つは大まかな推定のため、もう一つは正確な桁計算のためで、その後それらを組み合わせます。問題の解決方法を尋ねられると、実際の二経路戦略ではなく、教科書的な方法を説明します。

この研究は一つのモデルで実施され、Claudeの処理に関わる総計算量のほんの一部しか捉えていません。この種の回路分析は、言語モデルが内部でどのように機能するかについて、推測を超えて観察可能なメカニズムへと進む具体的な証拠を提供します。

📖 Read the full source: r/ClaudeAI

アンソピックの回路トレーシング研究により、Claude 3.5 Haikuの内部メカニズムが明らかになる

研究からの主な発見

👀 See Also

連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令

卒業式でAIの激励演説に学生がブーイング、開発者の心情を反映

Claude Proサブスクリプションのバグ：有料ユーザーが無料プランに固定される

オープンクローオーバーナイトテスト：AI自動化における飛躍的進歩