Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe

Ein Entwickler hat Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei einer agentenbasierten Text-zu-SQL-Aufgabe veröffentlicht. Der Benchmark nimmt englische Abfragen wie "Zeige Bestellpositionen, Umsatz, verkaufte Einheiten, Umsatz pro Einheit (Gesamtumsatz ÷ Gesamtverkaufte Einheiten), durchschnittlichen Listenpreis pro Produkt in der Unterkategorie, Bruttogewinn und Gewinnspanne in Prozent für jede Produktunterkategorie" und wandelt sie in SQL um, das gegen Datenbanktabellen getestet wird.
Benchmark-Details
Der Agent kann Abfrageergebnisse sehen und SQL zur Behebung von Problemen anpassen, mit einer Begrenzung der Debugging-Runden. Der Benchmark ist bewusst kurz mit 25 Fragen und läuft für die meisten Modelle in deutlich weniger als 5 Minuten, was ihn praktisch für das Testen verschiedener Konfigurationen macht. Er ist so konzipiert, dass er hart genug ist, um die besten Modelle von anderen zu unterscheiden.
Wichtige Erkenntnisse
- Die besten Open-Modelle waren kimi-k2.5, Qwen 3.5 397B-A17B und Qwen 3.5 27B
- NVIDIA Nemotron-Cascade-2-30B-A3B übertrifft Qwen 3.5-35B-A3B und entspricht Codex 5.3
- Mimo v2 Flash wurde als "ein Juwel von einem Modell" beschrieben
Selbstgehostete Option
Der Benchmark enthält jetzt die Möglichkeit, ihn selbst gegen Ihren eigenen Server mit der WASM-Version von Llama.cpp auszuführen. Der Entwickler sucht Feedback zu Änderungen für Version 2 und möchte sehen, welche Ergebnisse andere mit verschiedenen Konfigurationen erzielen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Desktop App fügt Projekte-Funktion zur Cowork-Oberfläche hinzu
Die Claude-Desktop-App enthält nun eine Projekte-Funktion in Cowork, die es Nutzern ermöglicht, Aufgaben und Kontext in dedizierten Arbeitsbereichen zu organisieren. Dateien und Anweisungen verbleiben auf dem lokalen Computer des Nutzers, mit Optionen zum Importieren bestehender Projekte oder zum Starten neuer.

KI-Agent erstellt autonom Video mit Remotion ohne vordefinierte Werkzeuge
Ein Entwickler testete einen KI-Agenten, der eigenständig einen kurzen Videoclip erstellte, indem er Remotion installierte, Kompositionscode schrieb, Probleme debuggte und eine gerenderte Datei ohne menschliches Eingreifen lieferte.

MCP-Server für lokale XMind-Mindmap-Dateien veröffentlicht
Ein Entwickler hat einen MCP-Server veröffentlicht, der 22 Werkzeuge zum Lesen und Schreiben lokaler XMind-Mindmap-Dateien bereitstellt. Der Server funktioniert mit MCP-kompatiblen KI-Clients wie Claude Desktop und Cursor.

Traubenwurzel-Tool reduziert Claude-Code-Tokenverbrauch durch Zwischenspeicherung des Repository-Kontextes
Ein kostenloses experimentelles Tool namens Grape Root behebt redundanten Token-Verbrauch in Claude Code, indem es einen leichtgewichtigen Zustand über zuvor erkundete Repository-Dateien verwaltet und unnötige Wiederholungslesevorgänge unveränderter Dateien bei Folgefragen verhindert.