PinchBench-Ergebnisse: Erster OpenClaw-spezifischer Benchmark für KI-Codierungsagenten

PinchBench ist der erste Benchmark, der speziell für die Bewertung von KI-Coding-Agenten im OpenClaw-Ökosystem entwickelt wurde und Modelle nach Erfolgsquote, Kosten und Geschwindigkeit einstuft.
Wichtige Ergebnisse
Der Benchmark testete 32 Modelle. Die besten Modelle nach Erfolgsquote:
- 1. google/gemini-3-flash-preview: 95,1 % Erfolgsquote, 0,72 $ Kosten, 254,50 s Geschwindigkeit
- 2. minimax/minimax-m2.1: 93,6 % Erfolgsquote, 0,14 $ Kosten, 239,79 s Geschwindigkeit
- 3. moonshotai/kimi-k2.5: 93,4 % Erfolgsquote, 0,20 $ Kosten, 291,67 s Geschwindigkeit
- 4. anthropic/claude-sonnet-4.5: 92,7 % Erfolgsquote, 3,07 $ Kosten, 304,53 s Geschwindigkeit
- 5. google/gemini-3-pro-preview: 91,7 % Erfolgsquote, 1,48 $ Kosten, 239,55 s Geschwindigkeit
Bemerkenswerte Erkenntnisse
- Flash-Modelle übertreffen Pro-Modelle bei niedrigeren Kosten: Gemini-3-Flash-Preview (95,1 %, 0,72 $) schneidet besser ab als Gemini-3-Pro-Preview (91,7 %, 1,48 $)
- Teurere Modelle sind nicht unbedingt besser
- Minimax 2.5 belegte Platz 31 mit 35,5 % Erfolgsquote, 105,96 s Geschwindigkeit (Kosten nicht angegeben)
- Mehrere Modelle zeigen hohe Erfolgsquoten über 90 % bei Kosten unter 1 $
Leistungsspektrum
Die Erfolgsquoten reichen von 95,1 % (Spitze) bis 35,2 % (Ende). Kostengünstige Optionen umfassen:
- openai/gpt-5-nano: 85,8 % Erfolgsquote für 0,03 $
- google/gemini-2.5-flash-lite: 83,2 % Erfolgsquote für 0,05 $
- mistralai/devstral-2512: 81,7 % Erfolgsquote für 0,10 $
Mehrere Modelle am Ende der Rangliste (Plätze 23-32) zeigen Erfolgsquoten um 40 % oder darunter, wobei die Kosten in den bereitgestellten Daten nicht aufgeführt sind.
📖 Read the full source: r/openclaw
👀 Siehe auch

SLayer: Eine quelloffene semantische Schicht für KI-Agenten, die aus Abfragen lernt
SLayer ist eine leichte, einbettbare semantische Schicht, die es KI-Agenten ermöglicht, Datenbanken abzufragen, Modelle zu verwalten und aus Interaktionen über MCP, REST, CLI oder Python zu lernen.

Umstellung von CLAUDE.md-Regeln auf infrastrukturelle Durchsetzung mit Citadel
Ein Entwickler stellte fest, dass das Hinzufügen weiterer Regeln zu CLAUDE.md über etwa 100 Zeilen hinaus die Compliance verringerte, wobei 40 % Redundanz in seiner Datei bestand. Die Lösung bestand darin, die Durchsetzung von Anweisungen in die Infrastruktur zu verlagern, indem Lebenszyklus-Hooks, Skills und Kampagnendateien verwendet wurden, was schließlich zum Open-Source-System Citadel führte.

Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams
Agents Observe ist ein lokales Dashboard, das Echtzeit-Beobachtbarkeit für Claude Code Agent-Sitzungen mithilfe von Hooks statt OTEL bietet. Es erfasst jeden Tool-Aufruf, die Agent-Hierarchie und Ereignisse mit Filter- und Suchfunktionen und läuft als Docker-Container, der automatisch mit Claude-Sitzungen startet.

Ersetzen komplexer Abrufpipelines durch einfache Git-Shell-Befehle für LLM-Agenten
Ein Entwickler ersetzte seine gesamte KI-Agenten-Abrufpipeline (sentence-transformers, rank-bm25, zweistufige LLM-Pipeline) durch ein einziges Tool, das dem Agenten ermöglicht, schreibgeschützte Shell-Befehle gegen ein Git-Repository auszuführen, wodurch die Docker-Image-Größe um ~3 GB reduziert und Timeout-Probleme beseitigt wurden.