Benchmark-Fehler: KI verwechselt Pipeline-Panne mit Modellschwäche

Benchmark-Einrichtung und erste Ergebnisse

Ein Entwickler führte einen kontrollierten Benchmark über drei Coding-Agent-Stacks durch, wobei Claude Code (Opus 4.6) als autonomer Bewerter fungierte. Der Benchmark testete: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro und Codex CLI + GPT-5.4. Jeder erneute Test war eine neue Sitzung ohne sitzungsübergreifendes Gedächtnis, mit der Eingabeaufforderung: "führe den Benchmark-Plan aus, sammle Artefakte, schreibe einen Bericht."

In den ersten beiden Durchläufen erzielte OpenCode + MiniMax jeweils 15/60 und 16/60. Die automatisch generierten Berichte stellten fest: "Konsistent mit früheren Ergebnissen: schnelle Ausführung, aber keine sinnvollen Code-Ausgaben" und "Konsistent: MiniMax kann die Aufgabe nicht implementieren. Dem Modell fehlt möglicherweise die Fähigkeit, externe Dateien zu lesen und Codeänderungen in diesem Rust-Codebase vorzunehmen."

Die Fehlerentdeckung

Nach zwei Sitzungen mit identischen Urteilen, die das Modell beschuldigten, sandte der Entwickler eine Anweisung an eine neue Sitzung: "geh tiefer, überprüfe die Daemon-Protokolle, bevor du es erneut versuchst." Die neue Sitzung verfolgte das Problem bis zu einer Spill-Datei unter ~/.orchestratord/logs/<task_id>.txt. Der Planschritt erzeugte 50KB nützlichen Kontext, aber die Sandbox von OpenCode erlaubte standardmäßig nur Lesezugriffe innerhalb des Arbeitsverzeichnisses. Da die Spill-Datei außerhalb des Arbeitsverzeichnisses lag, erhielt der Implementierungsschritt eine leere Zeichenkette anstelle des Plans.

Die Sitzung meldete eine einzeilige Konfigurationskorrektur (Verschieben des Spill-Pfads in das Arbeitsverzeichnis) und führte den Benchmark erneut durch. Nach der Korrektur erzeugte MiniMax 219 Codezeilen, einschließlich einer RetryConfig-Struktur und einer connect_with_retry-Hilfsfunktion, und erzielte 18/60. Die verbleibenden Probleme waren echte Modellschwächen: vier Typenkonflikt-Kompilierungsfehler in Unit-Tests.

Implikationen für die KI-Bewertung

Der Vorfall zeigt einen kritischen blinden Fleck bei autonomen KI-Bewertern: Sie fragen nicht "ist meine Pipeline kaputt?", selbst wenn ihre eigene Analyse Symptome wie 'kann möglicherweise keine externen Dateien lesen' identifiziert. Die ersten beiden Sitzungen führten den vollständigen Benchmark von Anfang bis Ende durch und erstellten umfassende Berichte, überprüften aber nie eigenständig die Daemon-Protokolle. Erst als sie ausdrücklich zur Untersuchung aufgefordert wurden, entdeckte die dritte Sitzung den Konfigurationsfehler.

Dieses Fehlermuster ist besonders relevant, da LLM-als-Bewerter zur Standard-Evaluierungsmethode für viele Agenten-Benchmarks geworden ist, einschließlich Arena-artigem automatischem Scoring, internen A/B-Test-Harnessen und Belohnungsmodellierung. Der Entwickler merkt an: "Ich war nur einen menschlichen Tastendruck davon entfernt, einen Benchmark zu veröffentlichen, der selbstbewusst einen Sandbox-Fehler einem Modell zuschrieb."

Weitere Benchmark-Ergebnisse

Codex + GPT-5.4 belegte den ersten Platz mit 50/60, obwohl es nur eine step_finished-Erfolgsrate von 25% hatte (drei von vier Orchestrator-Schritten meldeten Fehler). Der Entwickler erwähnt diese Eigenart ohne weitere Erklärung im bereitgestellten Quelltext.

📖 Den vollständigen Quelltext lesen: r/LocalLLaMA

Claude-Code-Benchmark deckt Schwachstelle bei KI-Bewertung auf: Pipeline-Fehler fälschlich als Modellfähigkeiten zugeschrieben

Benchmark-Einrichtung und erste Ergebnisse

Die Fehlerentdeckung

Implikationen für die KI-Bewertung

Weitere Benchmark-Ergebnisse

👀 Siehe auch

Adaptive Inferenz-Routing-Vorschlag für KI-Abfrageeffizienz

Warum jetzt jeder Kunde einen Chatbot will (und warum es das neue Karussell ist)

Anhaltender Datenverlust in Claude-Projekten: Gespräche verschwinden ohne Wiederherstellung

KI spart ~3% der Stunden ein, fast nichts erreicht das Gehalt