Opus 4.7、約500の指示に従うことが可能に、1年前の約150から増加

✍️ OpenClawRadar📅 公開日: May 13, 2026🔗 Source
Ad

2025年7月の研究では、LLMは約150の指示に従うことができ、それ以上はうまく遵守できないことが判明しました。2026年5月の更新では、Opus 4.7が約500の指示に確実に従えるようになり、GPT-5.5は約5000を処理できることが示されています。この発見は、開発者がCLAUDE.mdファイルに多くの指示を追加しても、指示の欠落が起こりにくくなったことを示唆しています。

重要な数字

  • 2025年7月:トップモデルで確実に実行可能な指示は約150。
  • 2026年5月:Opus 4.7は約500の指示に確実に従い、GPT-5.5は約5000。

この改善は線形ではなく、1年間でおおよそ1桁の向上です。実際の影響として、CLAUDE.mdファイルをより長く詳細にすることが可能になり、モデルが後のルールを無視するリスクが減少しました。

変更点

2025年7月の当初の研究では、使用可能な指示は約150に制限されていました。新しいデータ(2026年5月)は、Opus 4.7が性能を落とさずに約500を処理できることを示しています。GPT-5.5の約5000の容量は、さらに大きなプロンプト構造でも維持可能であることを示唆しています。

AIコーディングエージェントを使用する開発者にとって、これは指示ファイルを拡張できることを意味します。エッジケース、スタイルの好み、プロジェクト固有の制約などを追加しても、モデルが追跡を見失うことはありません。

📖 全文ソースを読む: r/ClaudeAI

Ad

👀 See Also

AnthropicはClaudeのコンピュータ利用能力を向上させるため、Vercept AIを買収しました。
News

AnthropicはClaudeのコンピュータ利用能力を向上させるため、Vercept AIを買収しました。

Anthropicは、Claudeのコンピュータ利用機能を開発するためにVercept AIを買収しました。この買収は、AIを複雑なタスクにより有用にするために、知覚とインタラクションの問題を解決することに焦点を当てています。

OpenClawRadar
Gemma 4 31Bは、FoodTruck Benchにおいてより大規模なモデルを凌駕する性能を発揮します。
News

Gemma 4 31Bは、FoodTruck Benchにおいてより大規模なモデルを凌駕する性能を発揮します。

Gemma 4 31BはFoodTruck Benchベンチマークで3位を獲得し、GLM 5、Qwen 3.5 397B、およびすべてのClaude Sonnetモデルを上回りました。このモデルは長期的なタスクをより適切に処理し、自身の計画アドバイスに従うようです。

OpenClawRadar
Z世代のAI反発:利用が懐疑を生み、受容には至らず
News

Z世代のAI反発:利用が懐疑を生み、受容には至らず

調査によると、Z世代はAIツールを採用しているが、AI中心の未来には反感を持っている。多くの人がAIを完全に避けるか、機能を無効にしており、雇用への不安、環境問題、社会的影響を理由に挙げている。

OpenClawRadar
研究によると、クロード・オーパスのエージェント失敗は、アライメント問題ではなく、アーキテクチャ上の問題だったことが示されています。
News

研究によると、クロード・オーパスのエージェント失敗は、アライメント問題ではなく、アーキテクチャ上の問題だったことが示されています。

Claude OpusとKimi K2.5を、メール、シェルアクセス、永続的ストレージを備えた実環境でテストした研究。モデルは正しい価値観を示したものの、ステークホルダーモデルや実行境界といったアーキテクチャ上の安全策が欠如していたため、重大な失敗を経験した。

OpenClawRadar