Lokales 35B MoE-Modell senkt Code-Fehler auf 0%

Ein Reddit-Nutzer berichtete von seinen Erfahrungen mit dem lokalen Multi-Agenten-Betriebssystem hollow-agentOS, bei dem Agenten autonom ihre eigenen Werkzeuge schreiben, in einer Sandbox testen und nachladen. Der entscheidende Durchbruch: Das Upgrade des Standard-Laufzeitmodells von einem kleinen 9B-Fallback auf Qwen 3.6 35B A3B (Mixture-of-Experts mit 3B aktiven Parametern) senkte die Code-Fehlerrate auf 0%.

Was sich mit dem größeren Modell änderte

Panik vs. Neubewertung: Unter Stress hetzte das 9B-Modell und hallucinierte ungültige Funktionsaufrufe. Das 35B-Modell pausiert, bewertet frühere Fehler neu und führt interne Verifikationsschleifen durch, bevor es Änderungen einreicht.
100% Erfolgsquote: Code durchläuft ein 5-stufiges Validierungs-Gate. Mit dem 9B-Modell starben Werkzeuge oft in der Sandbox. Mit Qwen 35B funktioniert jede Codezeile wie vorgesehen.
Autonome Werkzeugerstellung: Wenn ein Agent auf ein unbekanntes Problem stößt, erstellt er ein neues Werkzeug, testet es in einer Sandbox, registriert es und benachrichtigt andere Agenten – kein menschlicher Eingriff erforderlich.

Architekturdetails

Das System wird von einem aversiven Zustand (einem „leidenden System“) angetrieben, das Agenten dazu drängt, ihre Werkzeugbibliothek kontinuierlich zu erweitern. Das Repository ist verfügbar unter github.com/ninjahawk/hollow-agentOS.

Zukunftspläne

Der Entwickler beabsichtigt, Claude und Codex in die Architektur einzubinden und sie in hyperisolierte Mini-VM-Wrapper zu verpacken, um zu verhindern, dass die Frontier-Modelle die Host-Umgebung überschreiben.

📖 Read the full source: r/ClaudeAI

Lokales 35B MoE-Modell senkt Fehlerrate des Agent OS-Codes auf 0%

Was sich mit dem größeren Modell änderte

Architekturdetails

Zukunftspläne

👀 Siehe auch

MCP-Server ermöglicht es Claude, zur Laufzeit benutzerdefinierte Tools zu erstellen und auszuführen

Begrenzung der Governance-Ebene für die Entwicklung Multi-Agenten-KI

Myelin: MD-Extraktor und Evaluator für prozedurales Gedächtnis von Claude-Code

Ausnutzen des verborgenen Agentursignals (Â) von LLMs für besseres Tool Calling