PinchBench-Ergebnisse: Erster OpenClaw-spezifischer Benchmark für KI-Codierungsagenten

✍️ OpenClawRadar📅 Veröffentlicht: 8. März 2026🔗 Source
PinchBench-Ergebnisse: Erster OpenClaw-spezifischer Benchmark für KI-Codierungsagenten
Ad

PinchBench ist der erste Benchmark, der speziell für die Bewertung von KI-Coding-Agenten im OpenClaw-Ökosystem entwickelt wurde und Modelle nach Erfolgsquote, Kosten und Geschwindigkeit einstuft.

Wichtige Ergebnisse

Der Benchmark testete 32 Modelle. Die besten Modelle nach Erfolgsquote:

  • 1. google/gemini-3-flash-preview: 95,1 % Erfolgsquote, 0,72 $ Kosten, 254,50 s Geschwindigkeit
  • 2. minimax/minimax-m2.1: 93,6 % Erfolgsquote, 0,14 $ Kosten, 239,79 s Geschwindigkeit
  • 3. moonshotai/kimi-k2.5: 93,4 % Erfolgsquote, 0,20 $ Kosten, 291,67 s Geschwindigkeit
  • 4. anthropic/claude-sonnet-4.5: 92,7 % Erfolgsquote, 3,07 $ Kosten, 304,53 s Geschwindigkeit
  • 5. google/gemini-3-pro-preview: 91,7 % Erfolgsquote, 1,48 $ Kosten, 239,55 s Geschwindigkeit
Ad

Bemerkenswerte Erkenntnisse

  • Flash-Modelle übertreffen Pro-Modelle bei niedrigeren Kosten: Gemini-3-Flash-Preview (95,1 %, 0,72 $) schneidet besser ab als Gemini-3-Pro-Preview (91,7 %, 1,48 $)
  • Teurere Modelle sind nicht unbedingt besser
  • Minimax 2.5 belegte Platz 31 mit 35,5 % Erfolgsquote, 105,96 s Geschwindigkeit (Kosten nicht angegeben)
  • Mehrere Modelle zeigen hohe Erfolgsquoten über 90 % bei Kosten unter 1 $

Leistungsspektrum

Die Erfolgsquoten reichen von 95,1 % (Spitze) bis 35,2 % (Ende). Kostengünstige Optionen umfassen:

  • openai/gpt-5-nano: 85,8 % Erfolgsquote für 0,03 $
  • google/gemini-2.5-flash-lite: 83,2 % Erfolgsquote für 0,05 $
  • mistralai/devstral-2512: 81,7 % Erfolgsquote für 0,10 $

Mehrere Modelle am Ende der Rangliste (Plätze 23-32) zeigen Erfolgsquoten um 40 % oder darunter, wobei die Kosten in den bereitgestellten Daten nicht aufgeführt sind.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

KI-Token-Monitor: macOS-Tool verfolgt lokale Claude-Nutzung und Kosten
Werkzeuge

KI-Token-Monitor: macOS-Tool verfolgt lokale Claude-Nutzung und Kosten

Ein Entwickler hat AI Token Monitor erstellt, eine macOS-Menüleisten-App, die lokale Claude-Sitzungsdateien liest, um Token-Nutzung, Modellverteilung und Kostenäquivalente ohne API-Schlüssel zu verfolgen. Das Open-Source-Tool zeigte in einem Fall 6,5 Millionen Token (4.924 $ zu API-Preisen) über 35 Tage.

OpenClawRadar
🦀
Werkzeuge

Verwendung eines adversarialen Claude-Chats zur Erkennung von Kickoff-Mehrdeutigkeiten, bevor sie dich etwas kosten

Ein Entwickler hat einen zweiten Claude-Chat hinzugefügt, dessen einzige Aufgabe es ist, Kickoffs auf mehrdeutige Spezifikationen und stille Fehler zu überprüfen, was schätzungsweise 150–400 $ an Nacharbeit in Claude Code während einer Projektphase einspart.

OpenClawRadar
Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten
Werkzeuge

Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten

Galadriel ist ein 3-stufiger gestapelter Caching-Mechanismus für Claude, der die Kosten um 87 % senkt und die Latenzzeit für 100K-Token-Prompts auf unter 3s drückt. Integriert MemPalace für persistenten Vektorspeicher.

OpenClawRadar
🦀
Werkzeuge

Claude Code vs. Codex: 36 vs. 28 Dateien, 2,50 $ vs. 2,04 $, Endlosschleife erkannt — Praxisvergleich

Ein Entwickler führt die gleichen zwei Aufgaben mit Claude Code und Codex (Cursor) aus: PR-Triage-Bot und Echtzeit-Code-Review-UI. Ergebnisse: 36 vs. 28 Dateien, 2,50 $ vs. 2,04 $ Kosten, Claude produzierte weniger TypeScript-Fehler, Codex hatte eine Endlosschleife in React.

OpenClawRadar