OpenClaw-Benchmark zeigt: Qwen3.5:27B übertrifft andere lokale LLMs bei Agenten-Aufgaben

Benchmark-Aufbau und Ergebnisse
Ein Nutzer testete 7 lokale Modelle bei 22 realen Agentenaufgaben mit OpenClaw auf einem Raspberry Pi 5 mit einer RTX 3090, die Ollama ausführt. Die Aufgaben umfassten das Lesen von E-Mails, das Planen von Meetings, das Erstellen von Aufgaben, das Erkennen von Phishing, das Behandeln von Fehlern und Browser-Automatisierung.
Der Gewinner mit großem Abstand war qwen3.5:27b-q4_K_M mit 59,4 %. Der Zweitplatzierte (qwen3.5:35b) erreichte nur 23,2 %. Alle anderen Modelle lagen unter 5 %.
Wichtige Erkenntnisse
- Das quantisierte 27B-Modell schlug die größere 35B-Version um das 2,5-fache
- Ein 30B-Modell landete mit 1,6 % auf dem letzten Platz
- Mittleres Denken funktionierte am besten – zu viel Denken schadete der Leistung tatsächlich
- Kein Modell konnte Browser-Automatisierungsaufgaben abschließen
- Der Hauptunterschied zwischen Gewinnern und Verlierern war, ob das Modell Befehlszeilenwerkzeuge finden und nutzen konnte
- Die meisten Modelle konnten nicht einmal grundlegende Werkzeuge wie die E-Mail-Funktion finden
Dieser Benchmark liefert konkrete Daten darüber, wie verschiedene lokale LLMs als KI-Agenten in praktischen Szenarien abschneiden. Die erhebliche Leistungslücke zwischen dem Top-Modell und den anderen deutet darauf hin, dass die Fähigkeit, Werkzeuge zu finden, ein kritischer Engpass für lokale LLM-Agenten ist.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

GoStaff: Go-Neufassung von OpenClaw mit 100-facher Speicherreduzierung
GoStaff ist eine in Go neu geschriebene Version von OpenClaw, die etwa 100-mal weniger Speicher (~17 MB) verbraucht und gleichzeitig die Kompatibilität mit OpenClaw-Plugins über einen JavaScript-Shim beibehält. Es verfügt über ein dreistufiges Skill-System, eine einheitliche Postgres-Persistenz und Multi-Provider-ReAct-Schleifen.

Tether: Ein MCP-Server zum Austausch von Kontext zwischen KI-Modellen über SQLite
Tether ist ein Open-Source-Tool, das JSON-Daten auf 28-Byte inhaltsadressierte Handles reduziert, wodurch mehrere KI-Modelle Kontext über eine gemeinsame SQLite-Datenbank teilen können. Es fungiert als MCP-Server und ermöglicht die direkte Kommunikation zwischen Modellen wie Claude und MiniMax ohne Kopieren und Einfügen.

OpenClaw Video Translator Skill auf ClawHub verfügbar
Eine neue Video-Übersetzer-Fähigkeit für OpenClaw-Agenten ermöglicht es Nutzern, ein Video hochzuladen oder eine URL anzugeben, um sofort eine übersetzte Vorschau zu erhalten. Die Fähigkeit wird auf ClawHub gehostet.

Testing von KI-Agenten gegen reale APIs mit d3 Labs
d3 labs bietet 10 kostenlose Produktions-APIs an, um Entwicklern zu helfen, KI-Agenten in realen Szenarien zu testen, anstatt sich auf unrealistische Mocks zu verlassen.