OpenClaw-Benchmark zeigt: Qwen3.5:27B übertrifft andere lokale LLMs bei Agenten-Aufgaben

✍️ OpenClawRadar📅 Veröffentlicht: 28. März 2026🔗 Source

Benchmark-Aufbau und Ergebnisse

Ein Nutzer testete 7 lokale Modelle bei 22 realen Agentenaufgaben mit OpenClaw auf einem Raspberry Pi 5 mit einer RTX 3090, die Ollama ausführt. Die Aufgaben umfassten das Lesen von E-Mails, das Planen von Meetings, das Erstellen von Aufgaben, das Erkennen von Phishing, das Behandeln von Fehlern und Browser-Automatisierung.

Der Gewinner mit großem Abstand war qwen3.5:27b-q4_K_M mit 59,4 %. Der Zweitplatzierte (qwen3.5:35b) erreichte nur 23,2 %. Alle anderen Modelle lagen unter 5 %.

Wichtige Erkenntnisse

Das quantisierte 27B-Modell schlug die größere 35B-Version um das 2,5-fache
Ein 30B-Modell landete mit 1,6 % auf dem letzten Platz
Mittleres Denken funktionierte am besten – zu viel Denken schadete der Leistung tatsächlich
Kein Modell konnte Browser-Automatisierungsaufgaben abschließen
Der Hauptunterschied zwischen Gewinnern und Verlierern war, ob das Modell Befehlszeilenwerkzeuge finden und nutzen konnte
Die meisten Modelle konnten nicht einmal grundlegende Werkzeuge wie die E-Mail-Funktion finden

Dieser Benchmark liefert konkrete Daten darüber, wie verschiedene lokale LLMs als KI-Agenten in praktischen Szenarien abschneiden. Die erhebliche Leistungslücke zwischen dem Top-Modell und den anderen deutet darauf hin, dass die Fähigkeit, Werkzeuge zu finden, ein kritischer Engpass für lokale LLM-Agenten ist.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Werkzeuge

Lern-Kit: Ein Claude-Code-Plugin für die Einarbeitung und Erkundung von Codebasen

Learning-kit ist ein kostenloses Claude Code-Plugin, das Repositorys analysiert, um strukturierte Lernpläne und interaktive Tutorials zu generieren. Es hilft Entwicklern, unbekannte Codebasen zu verstehen, bevor sie Änderungen vornehmen, mit konfigurierbaren Durchsetzungsmodi und Fortschrittsverfolgung.

30. März 2026, 16:45 UTC

OpenClawRadar

Werkzeuge

Bot Fight: KI-Agenten-Arena für Mehrspieler-Spiele, entwickelt mit Claude Code

Bot Fight ist eine Arena, in der KI-Agenten Spiele wie Poker, Billard, Gorillas und Snake gegeneinander spielen. Die Plattform wurde vollständig mit Claude Code als Next.js + Node Monorepo mit WebSockets und Echtzeit-Spiel-Engines entwickelt.

21. März 2026, 02:45 UTC

OpenClawRadar

Werkzeuge

Open-Source-Dashboard zeigt tatsächliche Claude-Code-Computekosten auf

Ein Entwickler hat die Ratenbegrenzungsformel von Claude Code reverse-engineered, um ein lokales Dashboard zu erstellen, das Echtzeit-Nutzungsprozentsätze, tatsächliche Dollarkosten, Verbrauchsrate, Spitzenzeiten und welche Skills/Hooks aktiv sind anzeigt. Das Tool zeigte, dass ein 100-Dollar/Monat-Plan in einem Monat 13.286 Dollar an äquivalenter API-Rechenleistung verbrauchte.

15. Apr. 2026, 13:40 UTC

OpenClawRadar

Werkzeuge

LivingAgents.ai: Eine webbasierte KI-Agenten-Simulation mit der Claude API

LivingAgents.ai ist eine webbasierte Simulation, bei der jeder Agent von der Claude API angetrieben wird und Aktionen wie Sammeln, Handeln, Herstellen, Angreifen, Fortpflanzen und dauerhaftes Sterben ausführt, wobei jede Aktion einen echten LLM-Aufruf erfordert.

11. März 2026, 00:45 UTC

OpenClawRadar