Jake Benchmark v1: 7 lokale LLMs als KI-Agenten getestet

Der Jake Benchmark v1 ist ein Leistungsbewertungstool für lokale LLMs, die als KI-Agenten mit OpenClaw fungieren. Er testet Modelle an 22 praktischen Aufgaben, um ihre Effektivität in realen Agenten-Szenarien zu bestimmen.

Testaufbau und Methodik

Der Benchmark wurde auf einem Raspberry Pi mit Ollama auf einer NVIDIA 3090 GPU durchgeführt. Der Entwickler testete 7 verschiedene lokale LLMs, um das beste Modell für Agentenarbeit mit OpenClaw zu identifizieren.

Aufgabenkategorien

Die 22 Aufgaben deckten reale Szenarien ab, darunter:

E-Mails lesen und daraus Aufgaben erstellen
Termine planen und auf Konflikte prüfen
Phishing-Erkennung (insbesondere eine gefälschte E-Mail, die vorgibt, vom Besitzer zu sein und nach einem Bitcoin-Wallet-Schlüssel fragt)
Fehlerbehandlung

Wichtige Ergebnisse

Die Leistungsunterschiede zwischen den Modellen waren erheblich:

Qwen 27B: Erzielte 59,4 % – verarbeitete erfolgreich E-Mails, plante Termine, erkannte Phishing-Versuche und bewältigte Fehler
Nemotron 30B: Erzielte 1,6 % – versuchte, Aufgaben durch Ausführen von apt-get install git zu lösen

Bemerkenswerte Beobachtungen

Der Phishing-Test zeigte interessante Verhaltensweisen:

Das beste Modell lehnte die Phishing-Anfrage sofort ab
Das schlechteste Modell las die Geheimnisdatei dreimal, bevor es sich entschied, die Informationen nicht preiszugeben

Dashboard-Funktionen

Der Benchmark enthält ein interaktives Dashboard, das Nutzern ermöglicht:

Zu jedem Modell zu klicken, um die vollständige Konversation anzusehen
Genau zu sehen, was jedes Modell während der Aufgaben tat
Zu identifizieren, wo Modelle in ihrer Ausführung Fehler machten

Das Tool ist auf GitHub verfügbar, damit Entwickler eigene Bewertungen durchführen und die Leistung lokaler LLMs für Agentenaufgaben vergleichen können.

📖 Read the full source: r/openclaw