PinchBench-Ergebnisse: Erster OpenClaw-spezifischer Benchmark für KI-Codierungsagenten

✍️ OpenClawRadar📅 Veröffentlicht: 8. März 2026🔗 Source
PinchBench-Ergebnisse: Erster OpenClaw-spezifischer Benchmark für KI-Codierungsagenten
Ad

PinchBench ist der erste Benchmark, der speziell für die Bewertung von KI-Coding-Agenten im OpenClaw-Ökosystem entwickelt wurde und Modelle nach Erfolgsquote, Kosten und Geschwindigkeit einstuft.

Wichtige Ergebnisse

Der Benchmark testete 32 Modelle. Die besten Modelle nach Erfolgsquote:

  • 1. google/gemini-3-flash-preview: 95,1 % Erfolgsquote, 0,72 $ Kosten, 254,50 s Geschwindigkeit
  • 2. minimax/minimax-m2.1: 93,6 % Erfolgsquote, 0,14 $ Kosten, 239,79 s Geschwindigkeit
  • 3. moonshotai/kimi-k2.5: 93,4 % Erfolgsquote, 0,20 $ Kosten, 291,67 s Geschwindigkeit
  • 4. anthropic/claude-sonnet-4.5: 92,7 % Erfolgsquote, 3,07 $ Kosten, 304,53 s Geschwindigkeit
  • 5. google/gemini-3-pro-preview: 91,7 % Erfolgsquote, 1,48 $ Kosten, 239,55 s Geschwindigkeit
Ad

Bemerkenswerte Erkenntnisse

  • Flash-Modelle übertreffen Pro-Modelle bei niedrigeren Kosten: Gemini-3-Flash-Preview (95,1 %, 0,72 $) schneidet besser ab als Gemini-3-Pro-Preview (91,7 %, 1,48 $)
  • Teurere Modelle sind nicht unbedingt besser
  • Minimax 2.5 belegte Platz 31 mit 35,5 % Erfolgsquote, 105,96 s Geschwindigkeit (Kosten nicht angegeben)
  • Mehrere Modelle zeigen hohe Erfolgsquoten über 90 % bei Kosten unter 1 $

Leistungsspektrum

Die Erfolgsquoten reichen von 95,1 % (Spitze) bis 35,2 % (Ende). Kostengünstige Optionen umfassen:

  • openai/gpt-5-nano: 85,8 % Erfolgsquote für 0,03 $
  • google/gemini-2.5-flash-lite: 83,2 % Erfolgsquote für 0,05 $
  • mistralai/devstral-2512: 81,7 % Erfolgsquote für 0,10 $

Mehrere Modelle am Ende der Rangliste (Plätze 23-32) zeigen Erfolgsquoten um 40 % oder darunter, wobei die Kosten in den bereitgestellten Daten nicht aufgeführt sind.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

SLayer: Eine quelloffene semantische Schicht für KI-Agenten, die aus Abfragen lernt
Werkzeuge

SLayer: Eine quelloffene semantische Schicht für KI-Agenten, die aus Abfragen lernt

SLayer ist eine leichte, einbettbare semantische Schicht, die es KI-Agenten ermöglicht, Datenbanken abzufragen, Modelle zu verwalten und aus Interaktionen über MCP, REST, CLI oder Python zu lernen.

OpenClawRadar
Umstellung von CLAUDE.md-Regeln auf infrastrukturelle Durchsetzung mit Citadel
Werkzeuge

Umstellung von CLAUDE.md-Regeln auf infrastrukturelle Durchsetzung mit Citadel

Ein Entwickler stellte fest, dass das Hinzufügen weiterer Regeln zu CLAUDE.md über etwa 100 Zeilen hinaus die Compliance verringerte, wobei 40 % Redundanz in seiner Datei bestand. Die Lösung bestand darin, die Durchsetzung von Anweisungen in die Infrastruktur zu verlagern, indem Lebenszyklus-Hooks, Skills und Kampagnendateien verwendet wurden, was schließlich zum Open-Source-System Citadel führte.

OpenClawRadar
Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams
Werkzeuge

Agenten beobachten: Echtzeit-Dashboard zur Überwachung von Claude-Code-Agenten-Teams

Agents Observe ist ein lokales Dashboard, das Echtzeit-Beobachtbarkeit für Claude Code Agent-Sitzungen mithilfe von Hooks statt OTEL bietet. Es erfasst jeden Tool-Aufruf, die Agent-Hierarchie und Ereignisse mit Filter- und Suchfunktionen und läuft als Docker-Container, der automatisch mit Claude-Sitzungen startet.

OpenClawRadar
Ersetzen komplexer Abrufpipelines durch einfache Git-Shell-Befehle für LLM-Agenten
Werkzeuge

Ersetzen komplexer Abrufpipelines durch einfache Git-Shell-Befehle für LLM-Agenten

Ein Entwickler ersetzte seine gesamte KI-Agenten-Abrufpipeline (sentence-transformers, rank-bm25, zweistufige LLM-Pipeline) durch ein einziges Tool, das dem Agenten ermöglicht, schreibgeschützte Shell-Befehle gegen ein Git-Repository auszuführen, wodurch die Docker-Image-Größe um ~3 GB reduziert und Timeout-Probleme beseitigt wurden.

OpenClawRadar