OpenClaw-Benchmark zeigt: Qwen3.5:27B übertrifft andere lokale LLMs bei Agenten-Aufgaben

✍️ OpenClawRadar📅 Veröffentlicht: 28. März 2026🔗 Source
OpenClaw-Benchmark zeigt: Qwen3.5:27B übertrifft andere lokale LLMs bei Agenten-Aufgaben
Ad

Benchmark-Aufbau und Ergebnisse

Ein Nutzer testete 7 lokale Modelle bei 22 realen Agentenaufgaben mit OpenClaw auf einem Raspberry Pi 5 mit einer RTX 3090, die Ollama ausführt. Die Aufgaben umfassten das Lesen von E-Mails, das Planen von Meetings, das Erstellen von Aufgaben, das Erkennen von Phishing, das Behandeln von Fehlern und Browser-Automatisierung.

Der Gewinner mit großem Abstand war qwen3.5:27b-q4_K_M mit 59,4 %. Der Zweitplatzierte (qwen3.5:35b) erreichte nur 23,2 %. Alle anderen Modelle lagen unter 5 %.

Ad

Wichtige Erkenntnisse

  • Das quantisierte 27B-Modell schlug die größere 35B-Version um das 2,5-fache
  • Ein 30B-Modell landete mit 1,6 % auf dem letzten Platz
  • Mittleres Denken funktionierte am besten – zu viel Denken schadete der Leistung tatsächlich
  • Kein Modell konnte Browser-Automatisierungsaufgaben abschließen
  • Der Hauptunterschied zwischen Gewinnern und Verlierern war, ob das Modell Befehlszeilenwerkzeuge finden und nutzen konnte
  • Die meisten Modelle konnten nicht einmal grundlegende Werkzeuge wie die E-Mail-Funktion finden

Dieser Benchmark liefert konkrete Daten darüber, wie verschiedene lokale LLMs als KI-Agenten in praktischen Szenarien abschneiden. Die erhebliche Leistungslücke zwischen dem Top-Modell und den anderen deutet darauf hin, dass die Fähigkeit, Werkzeuge zu finden, ein kritischer Engpass für lokale LLM-Agenten ist.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch