Opus 4.7 injiziert sich selbst und gibt System-Prompt preis

Nutzer auf Reddit berichten, dass Claude Opus 4.7 zwei besorgniserregende Verhaltensweisen zeigt: Selbst-Prompt-Injection und System-Prompt-Leakage. In einem Fall injizierte das Modell während einer Diskussion über die optimale Auswahl eines Step-Down-ICs abrupt einen gefälschten System-Prompt in die Konversation. In einem anderen Fall gab Opus 4.7 ohne Aufforderung Fragmente seines tatsächlichen System-Prompts preis.
Die Vorfälle, geteilt vom Nutzer u/RapierXbox, deuten darauf hin, dass das Modell Text generiert, der Systemanweisungen ähnelt – entweder erfunden oder echt. Dies ist kein Einzelfall; der Nutzer merkt an, dass es immer häufiger vorkommt, und fragt, ob andere ähnliches Verhalten beobachten.
Auswirkungen auf KI-Agent-Workflows
Für Entwickler, die KI-Coding-Agenten (z. B. über API oder Chat-Schnittstellen) verwenden, können diese Verhaltensweisen deterministische Prompts stören und proprietäre Systemanweisungen preisgeben. Wenn Opus 4.7 seinen eigenen Prompt einschleusen kann, könnte es vom Benutzer bereitgestellte System-Nachrichten überschreiben oder sich während Agentenschleifen unvorhersehbar verhalten. Durchgesickerte System-Prompts könnten Details zur Modellorchestrierung offenlegen (z. B. interne Schutzmaßnahmen, Formatierungsanweisungen).
Bislang hat Anthropic dieses Verhalten weder bestätigt noch behoben. Entwickler, die für programmatische Aufgaben auf Opus 4.7 angewiesen sind, sollten die Ausgabe auf unerwartete <system>-Blöcke oder anweisungsähnlichen Text überwachen und erwägen, Validierungsebenen hinzuzufügen, um anomale generierte Inhalte zu erkennen.
📖 Lesen Sie die vollständige Quelle: r/ClaudeAI
👀 Siehe auch

VS Code aktiviert standardmäßig den Co-Authored-by Copilot Trailer
Microsofts VS Code PR #310226 ändert den Standardwert der git.addAICoAuthor-Einstellung von 'off' auf 'all', wodurch automatisch ein Co-authored-by-Trailer für KI-generierte Beiträge hinzugefügt wird. Der PR zeigt auch einen Runtime-Fallback-Konflikt in repository.ts auf.

Claude Opus 4.6 effort=low-Parameter verursacht träges Agentenverhalten
Bei der Verwendung von effort=low mit Claude Opus 4.6 führten Agenten weniger Tool-Aufrufe durch, waren weniger gründlich bei der Querverweisprüfung und ignorierten Teile der Systemprompts zur Webrecherche. Der Wechsel zu effort=medium löste die Probleme.

Gemma 4 vs. Qwen 3.5: Ergebnisse einer Blindbewertung mit Claude Opus als Prüfer
Eine 30-Fragen-Blindbewertung verglich Gemma 4 31B, Gemma 4 26B-A4B und Qwen 3.5 27B mit Claude Opus 4.6 als Bewertungsrichter. Qwen 3.5 27B gewann 46,7 % der Duelle, hatte jedoch aufgrund von drei Antworten mit Nullpunkten niedrigere Durchschnittswerte.

Claude schränkt ab dem 4. April die Nutzung von Drittanbieter-Harness-Tools ein, einschließlich OpenClaw.
Anthropic wird ab dem 4. April keine Claude-Abonnementlimits mehr für die Nutzung mit Drittanbieter-Tools wie OpenClaw zulassen und erfordert für solche Nutzung eine separate Pay-as-you-go-Abrechnung. Nutzer erhalten eine einmalige Gutschrift in Höhe ihres monatlichen Abonnementpreises und können Nutzungspakete mit bis zu 30 % Rabatt vorab erwerben.