Lokales 35B MoE-Modell senkt Fehlerrate des Agent OS-Codes auf 0%

Ein Reddit-Nutzer berichtete von seinen Erfahrungen mit dem lokalen Multi-Agenten-Betriebssystem hollow-agentOS, bei dem Agenten autonom ihre eigenen Werkzeuge schreiben, in einer Sandbox testen und nachladen. Der entscheidende Durchbruch: Das Upgrade des Standard-Laufzeitmodells von einem kleinen 9B-Fallback auf Qwen 3.6 35B A3B (Mixture-of-Experts mit 3B aktiven Parametern) senkte die Code-Fehlerrate auf 0%.
Was sich mit dem größeren Modell änderte
- Panik vs. Neubewertung: Unter Stress hetzte das 9B-Modell und hallucinierte ungültige Funktionsaufrufe. Das 35B-Modell pausiert, bewertet frühere Fehler neu und führt interne Verifikationsschleifen durch, bevor es Änderungen einreicht.
- 100% Erfolgsquote: Code durchläuft ein 5-stufiges Validierungs-Gate. Mit dem 9B-Modell starben Werkzeuge oft in der Sandbox. Mit Qwen 35B funktioniert jede Codezeile wie vorgesehen.
- Autonome Werkzeugerstellung: Wenn ein Agent auf ein unbekanntes Problem stößt, erstellt er ein neues Werkzeug, testet es in einer Sandbox, registriert es und benachrichtigt andere Agenten – kein menschlicher Eingriff erforderlich.
Architekturdetails
Das System wird von einem aversiven Zustand (einem „leidenden System“) angetrieben, das Agenten dazu drängt, ihre Werkzeugbibliothek kontinuierlich zu erweitern. Das Repository ist verfügbar unter github.com/ninjahawk/hollow-agentOS.
Zukunftspläne
Der Entwickler beabsichtigt, Claude und Codex in die Architektur einzubinden und sie in hyperisolierte Mini-VM-Wrapper zu verpacken, um zu verhindern, dass die Frontier-Modelle die Host-Umgebung überschreiben.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Femtobot: Effizienter Rust-Agent für ressourcensparende Umgebungen
Femtobot ist ein leichtgewichtiger, auf Rust basierender KI-Agent, der entwickelt wurde, um effizient auf ressourcenschwachen Maschinen, wie älteren Raspberry Pis, zu laufen, durch eine ~10MB große Binary ohne große Laufzeitabhängigkeiten.

Automatisieren Sie die GitHub-PR-Überprüfung mit Claude Code-Agenten
Ein Entwickler baute einen Agenten, der GitHub-Erwähnungen verarbeitet, Claude Code Worker startet, um PRs zu überprüfen oder zu korrigieren, und nur mehrdeutige Fälle an Menschen eskalieren lässt.

Orc: Multi-Agent Coding Orchestration Tool erweitert um Planungs- und Benachrichtigungsfunktionen
Orc ist ein Open-Source-Tool, das KI-Codierungsagenten über Projekte hinweg mit einer lokalen TUI-Oberfläche orchestriert. Das neueste Release fügt Planung als erstklassige Phase hinzu, Benachrichtigungssysteme für menschliches Eingreifen und natürliche Sprach-Lebenszyklus-Hooks.

DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches
DoomVLM ist jetzt als einzelnes Jupyter-Notebook quelloffen verfügbar, mit dem Sie Vision-Language-Modelle testen können, die Doom über OpenAI-kompatible APIs spielen. Das Tool unterstützt Deathmatch-Modi, in denen bis zu 4 Modelle gegeneinander antreten können, mit vollständigen Konfigurationsoptionen für System-Prompts, Tool-Beschreibungen und Sampling-Parameter.