Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe

✍️ OpenClawRadar📅 Veröffentlicht: 17. April 2026🔗 Source

Ein Entwickler hat Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei einer agentenbasierten Text-zu-SQL-Aufgabe veröffentlicht. Der Benchmark nimmt englische Abfragen wie "Zeige Bestellpositionen, Umsatz, verkaufte Einheiten, Umsatz pro Einheit (Gesamtumsatz ÷ Gesamtverkaufte Einheiten), durchschnittlichen Listenpreis pro Produkt in der Unterkategorie, Bruttogewinn und Gewinnspanne in Prozent für jede Produktunterkategorie" und wandelt sie in SQL um, das gegen Datenbanktabellen getestet wird.

Benchmark-Details

Der Agent kann Abfrageergebnisse sehen und SQL zur Behebung von Problemen anpassen, mit einer Begrenzung der Debugging-Runden. Der Benchmark ist bewusst kurz mit 25 Fragen und läuft für die meisten Modelle in deutlich weniger als 5 Minuten, was ihn praktisch für das Testen verschiedener Konfigurationen macht. Er ist so konzipiert, dass er hart genug ist, um die besten Modelle von anderen zu unterscheiden.

Wichtige Erkenntnisse

Die besten Open-Modelle waren kimi-k2.5, Qwen 3.5 397B-A17B und Qwen 3.5 27B
NVIDIA Nemotron-Cascade-2-30B-A3B übertrifft Qwen 3.5-35B-A3B und entspricht Codex 5.3
Mimo v2 Flash wurde als "ein Juwel von einem Modell" beschrieben

Selbstgehostete Option

Der Benchmark enthält jetzt die Möglichkeit, ihn selbst gegen Ihren eigenen Server mit der WASM-Version von Llama.cpp auszuführen. Der Entwickler sucht Feedback zu Änderungen für Version 2 und möchte sehen, welche Ergebnisse andere mit verschiedenen Konfigurationen erzielen.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Werkzeuge

onWatch: Open-Source-Lokaler API-Kontingent-Tracker mit SQLite-Speicher

onWatch ist ein lokaler API-Quoten-Tracker, der alle Daten in einer lokalen SQLite-Datenbank speichert, ohne Cloud-Dienst, Telemetrie oder Kontoerstellung. Es handelt sich um eine einzelne Binärdatei (~13 MB), die als Hintergrund-Daemon mit <50 MB RAM läuft und ein Dashboard auf localhost bereitstellt.

13. Apr. 2026, 08:00 UTC

OpenClawRadar

Werkzeuge

OpenClaw A2A Plugin: Arbeit an Remote-Agenten delegieren und Fortsetzungszustand wiederholen

Ein neues Open-Source-Plugin fügt das `remote_agent`-Tool zu OpenClaw hinzu und ermöglicht agentenübergreifende Delegation mit A2A-Protokoll-Unterstützung und Zustandswiederholung.

27. Juni 2026, 12:17 UTC

OpenClawRadar

Werkzeuge

Agents Elements: Ein macOS-Dashboard für Claude Code & Codex Installationen

Eine native macOS-App mit SwiftUI, die ~/.claude und ~/.codex scannt und installierte Skills, Subagents, Befehle, Plugins, MCP-Server, Hooks und Sitzungsstatus mit Token-Verbrauch anzeigt.

28. Juni 2026, 00:17 UTC

OpenClawRadar

Werkzeuge

bad-ass-mcp: Kostenloses, Open-Source-MCP für native Desktop-GUI-Steuerung über Accessibility-API

bad-ass-mcp ist ein Open-Source-MCP-Server, der Claude und anderen KI-Agenten ermöglicht, macOS-, Windows- und Linux-Desktops über die native Barrierefreiheitsschicht zu steuern – ohne Screenshots, ohne Look-Move-Look-Schleifen. Kostenlose Alternative zu Computer Use, Operator oder UiPath.

13. Mai 2026, 22:16 UTC

OpenClawRadar