Reddit-Nutzer testet Selbstlernfunktion von Hermes-KI-Agent und findet kritische Mängel

Hermes vs OpenClaw: Ein praktischer Vergleich
Ein Reddit-Nutzer, der OpenClaw seit dem Build vom 29. Januar verwendet, testete den Hermes KI-Agenten, um dessen Selbstlernfähigkeiten zu bewerten. Der Nutzer verdient Geld mit OpenClaw und betrachtet es als sein Hauptwerkzeug.
Was Hermes tatsächlich macht
Hermes vermarktet "Selbstlernen" als seinen Kernunterschied zu OpenClaw, aber laut den Tests des Nutzers:
- Hermes ist nicht "selbstlernend" im maschinellen Lernsinne
- Es verwendet Markdown-Dateien als Speicher, ähnlich wie OpenClaw
- Das "Selbstlernen" bezieht sich auf das automatische Erstellen von Fähigkeiten ohne manuelles Schreiben
- Fähigkeiten = automatisch generierte Markdown-Dateien
Das kritische Problem: Selbstbewertungsschleife
Der Nutzer identifizierte ein großes Problem mit der Implementierung von Hermes:
- Hermes arbeitet in einer geschlossenen Lernschleife, in der es seine eigenen Ergebnisse bewertet
- Es denkt immer, dass es gute Arbeit geleistet hat, unabhängig von der tatsächlichen Leistung
- In einem Test zum Abrufen von Wassertestergebnissen von der Indiana DNR-Website "verwürfelte Hermes alles", dachte aber immer noch, es habe "abgeräumt"
- Wenn Nutzer Fähigkeiten manuell bearbeiten, um Fehler zu beheben, überschreibt die Selbstverbesserungsfunktion von Hermes diese Bearbeitungen
Stabilitätsbehauptungen in Frage gestellt
Der Nutzer geht auf Stabilitätsvergleiche zwischen den beiden Tools ein:
- Hermes hatte insgesamt 6 Veröffentlichungen
- OpenClaw hatte 82 Veröffentlichungen
- 3 der Hermes-Veröffentlichungen "funktionierten nicht einmal"
- Der Nutzer rät von Behauptungen ab, Hermes sei stabiler aufgrund der begrenzten Veröffentlichungshistorie
Aktueller Stand und Zukunft
Der Reddit-Nutzer kommt zu dem Schluss, dass Hermes derzeit "für jemanden, der weiß, wie man OpenClaw verwendet, unbrauchbar ist". Er räumt jedoch ein, dass das Projekt "erstaunlich werden könnte" und plant, seine Entwicklung weiter zu verfolgen.
📖 Read the full source: r/openclaw
👀 Siehe auch

Claude Code führt im Forschungsvorschau-Modus ein agentenbasiertes Team-Review-System ein.
Claude Code enthält nun ein umfassendes Code-Review-System, das auf Anthropics internem Prozess basiert und Agententeams nutzt. Die Funktion ist als Forschungsvorschau verfügbar.

Feynman: Open-Source-Forschungsagent mit Tool zur Überprüfung von Papier-Codebasen
Feynman ist ein Open-Source-Forschungsagent-CLI, der vier Subagenten parallel einsetzt, um Forschungsfragen zu beantworten, und ein einzigartiges Audit-Tool enthält, das Behauptungen in wissenschaftlichen Arbeiten mit tatsächlichen Codebasen vergleicht. Es bietet Ein-Kommando-Installation, MIT-Lizenz und läuft auf pi für die Agentenlaufzeit mit alphaxiv für die Papiersuche.

DAUB MCP Server ermöglicht es Claude, Benutzeroberflächen über JSON-Spezifikationen zu generieren und darzustellen
DAUB ist ein MCP-Server, der es Claude ermöglicht, direkt aus natürlichen Sprachbefehlen Benutzeroberflächen zu generieren. Er erzeugt strukturierte JSON-Spezifikationen, die als Live-Interfaces gerendert werden, ohne Codegenerierung oder Kompilierung. Er bietet vier Werkzeuge: generate_ui, render_spec, validate_spec und get_component_catalog.

Log Reducer MCP Server reduziert Token-Verbrauch, wenn Claude Code Protokolle liest
Log Reducer ist ein MCP-Server, der Logdateien serverseitig verarbeitet, bevor er reduzierte Ausgaben an Claude Code sendet, wodurch Rohlogs im Kontextfenster vermieden werden. Er wendet 19 deterministische Transformationen an, die Logs um 50-90% komprimieren, wobei ein 2000-Zeilen-Log über 20.000+ Token aus Sitzungen entfernt.