Opus 4.7の注意劣化:256kコンテキストでMRCRスコアが92%から59%に低下

✍️ OpenClawRadar📅 公開日: May 13, 2026🔗 Source
Ad

r/ClaudeAI での詳細な分析により、Opus 4.7 の注意機構の劣化が 2 週間のヘビーユース後に確認されました。報告者は、長時間の会話において持続的かつ微妙な低下が発生し、詳細が抜け落ち、一貫性が失われ、モデルがぼんやりしているように感じられると述べています。

主要なベンチマークデータ

  • MRCR v2 8-needle テスト(256k コンテキスト): Opus 4.6 は 91.9% のリコールを記録しましたが、Opus 4.7 は 59.2% に低下しました。
  • 1M コンテキスト: Opus 4.6 は 78.3%、Opus 4.7 は 32.2% に低下しました。

Boris Cherny は、MRCR はモデルを騙すために妨害要素を積み重ねることに基づいており、ユーザーが実際に長いコンテキストを使用する方法とは異なるため、段階的に廃止されると述べています。Graphwalks はより優れた実用的な長文コンテキスト評価として位置づけられています。しかし、報告者は、ベンチマークの低下がユーザー体験と一致する場合、MRCR の廃止は根本的な問題に対処していないと主張しています。

提案される説明

報告者は、Constitutional AI の上に安全機構を重ねることが原因であると仮説を立てています。Constitutional AI はすでに堅牢な価値体系を提供していますが、追加の安全性レビュー層により、モデルは自身の判断が信頼できない可能性があると教えられ、余分なチェックを実行せざるを得なくなります。この認知的オーバーヘッドが、有効な注意機構の利用可能範囲を狭めています。

ペルソナ維持への影響

この記事は、Claude がステートレスモデルであり、その持続的なペルソナはトレーニングの重みとシステム指示から完全に構築されていることを強調しています。注意機構の低下は、コーディングアシスタントが以前の提案と矛盾したり、ライティングコラボレーターがトーンの一貫性を失ったりするなど、すべての使用例に影響を与えます。報告者は、Anthropic が Amanda Askell の Claude の性格と Constitutional AI の定義に関する研究に投資していることは、ペルソナの維持がニッチな機能ではなく、製品の中核であることを意味していると述べています。

具体的な例

純粋に学術的な使用例として、報告者は Opus 4.7 に歴史/哲学コース用の 24 ページの要約を送信しました。モデルはドキュメントの読み取りを開始しましたが、途中で… (ソースは途切れており、パフォーマンスの問題を示しています)

📖 全文ソース: r/ClaudeAI

Ad

👀 See Also

縦断的研究によると、AIによる生産性向上は10倍ではなく、10%であることが判明
News

縦断的研究によると、AIによる生産性向上は10倍ではなく、10%であることが判明

2024年11月から2026年2月まで40社を追跡した縦断研究によると、AIの使用率は平均65%増加したものの、プルリクエストのスループットは9.97%しか増加しなかった。データは、コーディングがソフトウェア開発における主要なボトルネックではなかったことを示唆している。

OpenClawRadar
🦀
News

Opus 4.7 推論努力ベンチマーク: 実タスクでは中が高と最大を上回る

GraphQL-go-toolsリポジトリの29タスクにおいて、Claude Code内のOpus 4.7は中程度の推論努力で最高のパフォーマンスを発揮しました。それ以上の設定では、パッチ品質を向上させることなく正解率が低下し、コストが増加しました。

OpenClawRadar
NYC病院がPalantir契約を終了、英国での拡大に監視の目
News

NYC病院がPalantir契約を終了、英国での拡大に監視の目

ニューヨーク市の公立病院システムは、10月にパランティアとの400万ドルの契約を更新せず、自社システムへの移行を進める。一方、パランティアは、NHSとの3億3000万ポンドの契約や英国の金融規制当局との新契約をめぐり、プライバシー懸念に直面している。

OpenClawRadar
Claude Code v2.1.85 リリース: MCPの改善、フックフィルター、バグ修正
News

Claude Code v2.1.85 リリース: MCPの改善、フックフィルター、バグ修正

Claude Code v2.1.85は、MCPヘッダーヘルパーの環境変数追加、フックのプロセス生成を削減する条件付きifフィールド、/compactの失敗、プラグインの有効化/無効化の問題、Ghostty、Kitty、WezTermのターミナルキーボード問題の修正を追加しました。

OpenClawRadar