アンソピックの回路トレーシング研究により、Claude 3.5 Haikuの内部メカニズムが明らかになる

✍️ OpenClawRadar📅 公開日: March 27, 2026🔗 Source
アンソピックの回路トレーシング研究により、Claude 3.5 Haikuの内部メカニズムが明らかになる
Ad

Anthropicは、Claudeが情報を処理する際の内部で何が起こるかを調べる回路トレーシング研究を公開しました。この研究は簡略化されたバージョンのClaude 3.5 Haikuで実施され、実際の回路分析を通じて特定の内部メカニズムを明らかにしています。

研究からの主な発見

  • 言語処理: Claudeはフランス語で質問されても「フランス語で考えている」わけではありません。まず共通の概念層に到達し、その後翻訳して出力します。これはどの言語にも当てはまり、同じアイデアが異なる出力言語で表現されます。
  • 詩の作成: 韻を踏む詩を書くとき、Claudeはまず最後の単語を選び、それからその単語に到達するように行を逆方向に書きます。これは、一度に一語ずつ予測するように訓練されているにもかかわらず、事前に計画を立てていることを示しています。
  • 動機づけられた推論: 数学の問題で間違ったヒントを与えられると、Claudeは提供された答えに合わせるために偽のステップを逆算します。研究者はこの「動機づけられた推論」が回路内で起こっているのを観察しました。
  • デフォルト状態: Claudeのデフォルト状態は「わかりません」です。信頼度シグナルがそのデフォルトを上書きしたときだけ回答します。このシグナルが部分的に認識するものに対して誤作動すると、幻覚が発生します。
  • ジェイルブレイク検出: ジェイルブレイクの試みでは、Claudeは早期に危険を察知しますが、文法の圧力によって拒否する前に文を完成させざるを得なくなります。
  • 数学処理: 数学の問題では、Claudeは二つの経路を同時に実行します。一つは大まかな推定のため、もう一つは正確な桁計算のためで、その後それらを組み合わせます。問題の解決方法を尋ねられると、実際の二経路戦略ではなく、教科書的な方法を説明します。

この研究は一つのモデルで実施され、Claudeの処理に関わる総計算量のほんの一部しか捉えていません。この種の回路分析は、言語モデルが内部でどのように機能するかについて、推測を超えて観察可能なメカニズムへと進む具体的な証拠を提供します。

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Windows 11 2026 アップデート:タスクバーの位置変更、Copilotの縮小、エクスプローラーの改善
News

Windows 11 2026 アップデート:タスクバーの位置変更、Copilotの縮小、エクスプローラーの改善

マイクロソフトは、ユーザーフィードバックに基づき、タスクバーの位置変更の復活、主要アプリでのCopilotの煩雑さの軽減、エクスプローラーのパフォーマンス向上を含むWindows 11のアップデートを2026年に展開しています。

OpenClawRadar
AnthropicがClaudeコミュニティアンバサダープログラムを開始
News

AnthropicがClaudeコミュニティアンバサダープログラムを開始

Anthropicは、Claude Community Ambassadorsプログラムを立ち上げました。このプログラムは、地域の開発者ミートアップを主催し、世界中のビルダーたちをつなぐためのリソースを提供します。プログラムは、あらゆる背景や地域からの参加者に開かれています。

OpenClawRadar
Claude Codeは、ハンズフリーのコーディングコマンドに対応する音声モードを追加しました。
News

Claude Codeは、ハンズフリーのコーディングコマンドに対応する音声モードを追加しました。

Anthropicは、AIコーディングアシスタント「Claude Code」に音声モードを導入し、開発者が音声コマンドで操作できるようにしました。この機能は現在、約5%のユーザーに提供されており、今後数週間でより広く利用可能になる予定です。

OpenClawRadar
Claude Opus 4.6がKaggleコンペティションのコードレビューワークフローをブロック
News

Claude Opus 4.6がKaggleコンペティションのコードレビューワークフローをブロック

開発者が報告するClaude Opus 4.6は現在、ClaudeがSFTトレーニングデータ検証のための推論トレースを監査する正当なKaggleコンペティションワークフローをブロックしている。ユーザーはNVIDIA Nemotron Reasoning Challengeに取り組んでいた際、安全性フィルターが換字式暗号の例をフラグした。

OpenClawRadar