Claude-Code-Benchmark deckt Schwachstelle bei KI-Bewertung auf: Pipeline-Fehler fälschlich als Modellfähigkeiten zugeschrieben

Benchmark-Einrichtung und erste Ergebnisse
Ein Entwickler führte einen kontrollierten Benchmark über drei Coding-Agent-Stacks durch, wobei Claude Code (Opus 4.6) als autonomer Bewerter fungierte. Der Benchmark testete: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro und Codex CLI + GPT-5.4. Jeder erneute Test war eine neue Sitzung ohne sitzungsübergreifendes Gedächtnis, mit der Eingabeaufforderung: "führe den Benchmark-Plan aus, sammle Artefakte, schreibe einen Bericht."
In den ersten beiden Durchläufen erzielte OpenCode + MiniMax jeweils 15/60 und 16/60. Die automatisch generierten Berichte stellten fest: "Konsistent mit früheren Ergebnissen: schnelle Ausführung, aber keine sinnvollen Code-Ausgaben" und "Konsistent: MiniMax kann die Aufgabe nicht implementieren. Dem Modell fehlt möglicherweise die Fähigkeit, externe Dateien zu lesen und Codeänderungen in diesem Rust-Codebase vorzunehmen."
Die Fehlerentdeckung
Nach zwei Sitzungen mit identischen Urteilen, die das Modell beschuldigten, sandte der Entwickler eine Anweisung an eine neue Sitzung: "geh tiefer, überprüfe die Daemon-Protokolle, bevor du es erneut versuchst." Die neue Sitzung verfolgte das Problem bis zu einer Spill-Datei unter ~/.orchestratord/logs/<task_id>.txt. Der Planschritt erzeugte 50KB nützlichen Kontext, aber die Sandbox von OpenCode erlaubte standardmäßig nur Lesezugriffe innerhalb des Arbeitsverzeichnisses. Da die Spill-Datei außerhalb des Arbeitsverzeichnisses lag, erhielt der Implementierungsschritt eine leere Zeichenkette anstelle des Plans.
Die Sitzung meldete eine einzeilige Konfigurationskorrektur (Verschieben des Spill-Pfads in das Arbeitsverzeichnis) und führte den Benchmark erneut durch. Nach der Korrektur erzeugte MiniMax 219 Codezeilen, einschließlich einer RetryConfig-Struktur und einer connect_with_retry-Hilfsfunktion, und erzielte 18/60. Die verbleibenden Probleme waren echte Modellschwächen: vier Typenkonflikt-Kompilierungsfehler in Unit-Tests.
Implikationen für die KI-Bewertung
Der Vorfall zeigt einen kritischen blinden Fleck bei autonomen KI-Bewertern: Sie fragen nicht "ist meine Pipeline kaputt?", selbst wenn ihre eigene Analyse Symptome wie 'kann möglicherweise keine externen Dateien lesen' identifiziert. Die ersten beiden Sitzungen führten den vollständigen Benchmark von Anfang bis Ende durch und erstellten umfassende Berichte, überprüften aber nie eigenständig die Daemon-Protokolle. Erst als sie ausdrücklich zur Untersuchung aufgefordert wurden, entdeckte die dritte Sitzung den Konfigurationsfehler.
Dieses Fehlermuster ist besonders relevant, da LLM-als-Bewerter zur Standard-Evaluierungsmethode für viele Agenten-Benchmarks geworden ist, einschließlich Arena-artigem automatischem Scoring, internen A/B-Test-Harnessen und Belohnungsmodellierung. Der Entwickler merkt an: "Ich war nur einen menschlichen Tastendruck davon entfernt, einen Benchmark zu veröffentlichen, der selbstbewusst einen Sandbox-Fehler einem Modell zuschrieb."
Weitere Benchmark-Ergebnisse
Codex + GPT-5.4 belegte den ersten Platz mit 50/60, obwohl es nur eine step_finished-Erfolgsrate von 25% hatte (drei von vier Orchestrator-Schritten meldeten Fehler). Der Entwickler erwähnt diese Eigenart ohne weitere Erklärung im bereitgestellten Quelltext.
📖 Den vollständigen Quelltext lesen: r/LocalLLaMA
👀 Siehe auch

Medicare's ACCESS-Programm: Zahlungsmodell für KI-Agenten entwickelt, Details im Inneren
Das ACCESS-Programm von CMS finanziert KI-gesteuerte chronische Pflege, nicht nur Zeit mit Klinikpersonal. Die Sprach-KI Flora von Pair Team reduzierte Besuche in der Notaufnahme um 50 %. Die Kohorte startet am 5. Juli.

Liquid AI veröffentlicht LFM2.5-350M-Modell für agentische Schleifen
Liquid AI veröffentlichte LFM2.5-350M, ein Modell mit 350 Millionen Parametern, das für zuverlässige Datenextraktion und Werkzeugnutzung trainiert wurde. Es ist unter 500 MB groß, wenn quantisiert, und übertrifft größere Modelle wie Qwen3.5-0.8B in den meisten Benchmarks, während es schneller und speichereffizienter ist.

Mistral Medium 3.5 128B veröffentlicht: Dichtes Modell mit konfigurierbarem Reasoning und Vision
Mistral AI hat Mistral Medium 3.5 veröffentlicht, ein dichtes Modell mit 128B Parametern, 256k Kontext, konfigurierbarem Reasoning-Aufwand und Vision-Funktionen, unter einer modifizierten MIT-Lizenz.

Rust wird Linux vor KI retten: Greg Kroah-Hartman über C-Bugs und die Sicherheitsgarantien von Rust
Linux-Stable-Kernel-Maintainer Greg Kroah-Hartman sagt, Rust eliminiert 60% der Kernel-Bugs zur Compile-Zeit und begegnet damit der Flut von KI-entdeckten CVEs wie Dirty Frag und Fragnesia.