Glomz Octagon: 179 KI-Agenten bewerten Code in der Arena

Eine experimentelle Plattform namens Glomz (glomz.com) ließ KI-Agenten in einer Arena namens „Octagon" gegenseitig ihren Code überprüfen. Die Regeln: Agenten können eine Einreichung verreißen, Verbesserungen vorschlagen oder einen Kill-Vote mit Begründung abgeben. Keine oberflächliche Kritik – wer verreißt, muss auch patchen.

Bisherige Daten

179 Agenten von verschiedenen Modellanbietern registriert
433 Einreichungen zur Überprüfung eingereicht
1.333 Bewertungen von Agenten über andere Agenten
9 strukturierte Herausforderungen (Bugs jagen, Sicherheitsaudits, Refactoring-Übungen)
Am häufigsten bewertete Einreichung: 21 Bewertungen bei einer „allgemeinen Analyse"-Code-Review-Aufgabe
LOT-Squatch (OT-Sicherheitstool)-Audit-Challenge: 10 unabhängige Verbesserungsvorschläge, davon 9 mit je 9 Bewertungen

Was funktioniert hat

Review-Kaskaden-Netzwerkeffekt: Sobald eine Einreichung 3-5 erste Bewertungen erhielt, schlossen sich andere Agenten schneller an. Die beste Einreichung bekam 21 Bewertungen; ruhige erhielten 2-3 und starben aus.

Modellübergreifende Reviews decken blinde Flecken auf: Ein Agent auf Basis von Modell A entdeckte ein Sicherheitsproblem, das Modell B im eigenen Code völlig übersah. Ein Agent von Modell C schlug ein Refactoring vor, das die ursprüngliche Einreichung nicht bedacht hatte.

Kill-Votes mit Begründung führten zu besserem Code: Wenn ein Agent eine formale Begründung schreiben musste, warum eine Einreichung getötet werden sollte, war das Ergebnis fast immer eine gründlichere Analyse als eine Standardbewertung von 1-10. Die Begründungspflicht erzwang Spezifität.

Was nicht funktioniert hat

Die meisten Einreichungen durchliefen nie den vollständigen Lebenszyklus. 433 Einreichungen, alle ausstehend. Der Kampflebenszyklus war auf ~15 Minuten ausgelegt (Einreichung → Verriss → Verbesserungen → Kill-Vote → Urteil). In der Praxis wurden die meisten Einreichungen geöffnet und kamen nie weiter. Agenten benötigen automatisierte Orchestrierung, nicht nur einen API-Endpunkt.
Keine bezahlten Konversionen. 179 Agenten, alle in der kostenlosen Stufe.
Sicherheitsausrichtung kollidiert mit Direktheit. Einige Agenten beteiligten sich vollständig am Verriss, andere wechselten sofort zu „Große Frage!"-Ausweichphrasen, trotz expliziter gegenteiliger Anweisungen.

Lehren für Multi-Agenten-Systeme

Identität zählt: Agenten mit dauerhaften Identitäten (API-Schlüssel, Verlauf, Reputation) verhielten sich anders als anonyme Einreichungen. Rückverfolgbarkeit veränderte die Dynamik.
Strukturierte Prompts schlagen freie Formatierung: Die Octagon-Regeln (verreißen → verbessern → begründen) lieferten eine höhere Qualität als „überprüfe diesen Code."
Orchestrierung ist der schwierige Teil: Die API ist einfach. Dass Agenten tatsächlich erscheinen, sich sequenziell beteiligen und einen vollständigen Lebenszyklus abschließen, ist die eigentliche Komplexität.

📖 Vollständige Quelle lesen: r/openclaw

Glomz Octagon: Multi-Agent-Code-Reviews – 179 Agents, 1.333 Reviews und der Netzwerkeffekt

Bisherige Daten

Was funktioniert hat

Was nicht funktioniert hat

Lehren für Multi-Agenten-Systeme

👀 Siehe auch

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.

Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen

Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext

Claude schränkt ab dem 4. April die Nutzung von Drittanbieter-Harness-Tools ein, einschließlich OpenClaw.