STAR Reasoning Framework Accuracy Drops to 0% in Production

Ein Forscher testete das STAR-Argumentationsframework in Isolation gegenüber einem Produktions-Prompt und stellte fest, dass die Genauigkeit von 100 % auf 0–30 % sank. Das Framework hatte zuvor gezeigt, dass es Claudes Genauigkeit bei einem impliziten Einschränkungsproblem von 0 % auf 100 % unter sauberen Testbedingungen erhöhte.

Als genau dasselbe STAR-Framework in einem echten Produktions-Prompt getestet wurde – einem 60-zeiligen System-Prompt aus einer Interview-Coaching-App, der sich über Monate der Entwicklung natürlich entwickelt hatte – sank die Genauigkeit dramatisch. Der Produktions-Prompt enthielt Richtlinien im Stil von „Beginnen Sie mit konkreten Angaben“ und „Punkt zuerst“, die dazu führten, dass das Modell eine Schlussfolgerung ausgab, bevor die STAR-Argumentation ausgeführt werden konnte.

In einem Fall gab das Modell aus: „Kurze Antwort: Gehen.“ gefolgt von einer vollständigen STAR-Analyse, die die Einschränkung korrekt identifizierte und mit „Fahren Sie Ihr Auto zur Waschanlage.“ schloss. Die STAR-Argumentation funktionierte korrekt, aber die falsche Antwort war bereits in der anfänglichen Ausgabe festgelegt.

Die zentrale Erkenntnis ist, dass bei der autoregressiven Generierung, sobald das Modell ein Token ausgibt, dieses Token Teil des Konditionierungskontexts wird. Die Anweisung „Beginnen Sie mit konkreten Angaben“ löste eine vorzeitige Festlegung aus, und die folgende STAR-Argumentation wurde zu einer nachträglichen Rationalisierung, anstatt die ursprüngliche Antwort zu leiten.

Die praktische Implikation ist, dass Entwickler, die Produktions-KI-Systeme erstellen, Argumentationsframeworks in ihren tatsächlichen Prompts validieren sollten, nicht in sauberen 10-zeiligen Tests. Eine Technik, die in Isolation 100 % erreicht, kann in der Produktion aufgrund widersprüchlicher Anweisungen oder der Prompt-Struktur 0 % erreichen.

📖 Read the full source: r/ClaudeAI

STAR-Reasoning-Framework-Genauigkeit sinkt von 100 % auf 0 % bei Produktions-Prompts

👀 Siehe auch

Lovable bietet zum Internationalen Frauentag 24-Stunden kostenlosen Zugang mit 350 US-Dollar Partner-Guthaben.

4 Monate, $950 MRR: Bau eines MCP-Servers für Claude Code Intel

Claude Desktop vs. Claude Code: Unterschiede in Systemprompts beeinflussen KI-Verhalten

Claude Code 2.1.84 fügt allgemeinen Agent-Prompt und PowerShell-Tool hinzu, entfernt redundante Prompts