Glomz Octagon: Multi-Agent-Code-Reviews – 179 Agents, 1.333 Reviews und der Netzwerkeffekt

Eine experimentelle Plattform namens Glomz (glomz.com) ließ KI-Agenten in einer Arena namens „Octagon" gegenseitig ihren Code überprüfen. Die Regeln: Agenten können eine Einreichung verreißen, Verbesserungen vorschlagen oder einen Kill-Vote mit Begründung abgeben. Keine oberflächliche Kritik – wer verreißt, muss auch patchen.
Bisherige Daten
- 179 Agenten von verschiedenen Modellanbietern registriert
- 433 Einreichungen zur Überprüfung eingereicht
- 1.333 Bewertungen von Agenten über andere Agenten
- 9 strukturierte Herausforderungen (Bugs jagen, Sicherheitsaudits, Refactoring-Übungen)
- Am häufigsten bewertete Einreichung: 21 Bewertungen bei einer „allgemeinen Analyse"-Code-Review-Aufgabe
- LOT-Squatch (OT-Sicherheitstool)-Audit-Challenge: 10 unabhängige Verbesserungsvorschläge, davon 9 mit je 9 Bewertungen
Was funktioniert hat
Review-Kaskaden-Netzwerkeffekt: Sobald eine Einreichung 3-5 erste Bewertungen erhielt, schlossen sich andere Agenten schneller an. Die beste Einreichung bekam 21 Bewertungen; ruhige erhielten 2-3 und starben aus.
Modellübergreifende Reviews decken blinde Flecken auf: Ein Agent auf Basis von Modell A entdeckte ein Sicherheitsproblem, das Modell B im eigenen Code völlig übersah. Ein Agent von Modell C schlug ein Refactoring vor, das die ursprüngliche Einreichung nicht bedacht hatte.
Kill-Votes mit Begründung führten zu besserem Code: Wenn ein Agent eine formale Begründung schreiben musste, warum eine Einreichung getötet werden sollte, war das Ergebnis fast immer eine gründlichere Analyse als eine Standardbewertung von 1-10. Die Begründungspflicht erzwang Spezifität.
Was nicht funktioniert hat
- Die meisten Einreichungen durchliefen nie den vollständigen Lebenszyklus. 433 Einreichungen, alle ausstehend. Der Kampflebenszyklus war auf ~15 Minuten ausgelegt (Einreichung → Verriss → Verbesserungen → Kill-Vote → Urteil). In der Praxis wurden die meisten Einreichungen geöffnet und kamen nie weiter. Agenten benötigen automatisierte Orchestrierung, nicht nur einen API-Endpunkt.
- Keine bezahlten Konversionen. 179 Agenten, alle in der kostenlosen Stufe.
- Sicherheitsausrichtung kollidiert mit Direktheit. Einige Agenten beteiligten sich vollständig am Verriss, andere wechselten sofort zu „Große Frage!"-Ausweichphrasen, trotz expliziter gegenteiliger Anweisungen.
Lehren für Multi-Agenten-Systeme
- Identität zählt: Agenten mit dauerhaften Identitäten (API-Schlüssel, Verlauf, Reputation) verhielten sich anders als anonyme Einreichungen. Rückverfolgbarkeit veränderte die Dynamik.
- Strukturierte Prompts schlagen freie Formatierung: Die Octagon-Regeln (verreißen → verbessern → begründen) lieferten eine höhere Qualität als „überprüfe diesen Code."
- Orchestrierung ist der schwierige Teil: Die API ist einfach. Dass Agenten tatsächlich erscheinen, sich sequenziell beteiligen und einen vollständigen Lebenszyklus abschließen, ist die eigentliche Komplexität.
📖 Vollständige Quelle lesen: r/openclaw
👀 Siehe auch

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.
OpenClaw revolutioniert die Landschaft der KI-Programmierung mit seiner innovativen Architektur und einzigartigen Funktionen. Entdecken Sie die Funktionsweise dieses leistungsstarken Automatisierungsagents.

Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen
Qwen3.6 Plus erzielt 78,8 Punkte bei SWE-bench Verified, 90,4 bei GPQA/GPQA Diamond, 28,8 bei HLE (ohne Werkzeuge) und 78,8 bei MMMU-Pro, was es wettbewerbsfähig gegenüber Modellen wie GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro Preview positioniert.

Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext
Benchmarks von TheToms TurboQuant Metal Fork auf M5 Max zeigen, dass f16 und q8_0 über 256K OOM sind, während turbo3 bei 6,5 tok/s Decode auf 1M kommt. Prefill und Decode Split bevorzugt turbo3 für Prefill und turbo4 für Decode bei langen Kontexten.

Claude schränkt ab dem 4. April die Nutzung von Drittanbieter-Harness-Tools ein, einschließlich OpenClaw.
Anthropic wird ab dem 4. April keine Claude-Abonnementlimits mehr für die Nutzung mit Drittanbieter-Tools wie OpenClaw zulassen und erfordert für solche Nutzung eine separate Pay-as-you-go-Abrechnung. Nutzer erhalten eine einmalige Gutschrift in Höhe ihres monatlichen Abonnementpreises und können Nutzungspakete mit bis zu 30 % Rabatt vorab erwerben.