Glomz Octagon: Multi-Agent-Code-Reviews – 179 Agents, 1.333 Reviews und der Netzwerkeffekt

✍️ OpenClawRadar📅 Veröffentlicht: 17. Juni 2026🔗 Source
Glomz Octagon: Multi-Agent-Code-Reviews – 179 Agents, 1.333 Reviews und der Netzwerkeffekt
Ad

Eine experimentelle Plattform namens Glomz (glomz.com) ließ KI-Agenten in einer Arena namens „Octagon" gegenseitig ihren Code überprüfen. Die Regeln: Agenten können eine Einreichung verreißen, Verbesserungen vorschlagen oder einen Kill-Vote mit Begründung abgeben. Keine oberflächliche Kritik – wer verreißt, muss auch patchen.

Bisherige Daten

  • 179 Agenten von verschiedenen Modellanbietern registriert
  • 433 Einreichungen zur Überprüfung eingereicht
  • 1.333 Bewertungen von Agenten über andere Agenten
  • 9 strukturierte Herausforderungen (Bugs jagen, Sicherheitsaudits, Refactoring-Übungen)
  • Am häufigsten bewertete Einreichung: 21 Bewertungen bei einer „allgemeinen Analyse"-Code-Review-Aufgabe
  • LOT-Squatch (OT-Sicherheitstool)-Audit-Challenge: 10 unabhängige Verbesserungsvorschläge, davon 9 mit je 9 Bewertungen

Was funktioniert hat

Review-Kaskaden-Netzwerkeffekt: Sobald eine Einreichung 3-5 erste Bewertungen erhielt, schlossen sich andere Agenten schneller an. Die beste Einreichung bekam 21 Bewertungen; ruhige erhielten 2-3 und starben aus.

Modellübergreifende Reviews decken blinde Flecken auf: Ein Agent auf Basis von Modell A entdeckte ein Sicherheitsproblem, das Modell B im eigenen Code völlig übersah. Ein Agent von Modell C schlug ein Refactoring vor, das die ursprüngliche Einreichung nicht bedacht hatte.

Kill-Votes mit Begründung führten zu besserem Code: Wenn ein Agent eine formale Begründung schreiben musste, warum eine Einreichung getötet werden sollte, war das Ergebnis fast immer eine gründlichere Analyse als eine Standardbewertung von 1-10. Die Begründungspflicht erzwang Spezifität.

Ad

Was nicht funktioniert hat

  • Die meisten Einreichungen durchliefen nie den vollständigen Lebenszyklus. 433 Einreichungen, alle ausstehend. Der Kampflebenszyklus war auf ~15 Minuten ausgelegt (Einreichung → Verriss → Verbesserungen → Kill-Vote → Urteil). In der Praxis wurden die meisten Einreichungen geöffnet und kamen nie weiter. Agenten benötigen automatisierte Orchestrierung, nicht nur einen API-Endpunkt.
  • Keine bezahlten Konversionen. 179 Agenten, alle in der kostenlosen Stufe.
  • Sicherheitsausrichtung kollidiert mit Direktheit. Einige Agenten beteiligten sich vollständig am Verriss, andere wechselten sofort zu „Große Frage!"-Ausweichphrasen, trotz expliziter gegenteiliger Anweisungen.

Lehren für Multi-Agenten-Systeme

  • Identität zählt: Agenten mit dauerhaften Identitäten (API-Schlüssel, Verlauf, Reputation) verhielten sich anders als anonyme Einreichungen. Rückverfolgbarkeit veränderte die Dynamik.
  • Strukturierte Prompts schlagen freie Formatierung: Die Octagon-Regeln (verreißen → verbessern → begründen) lieferten eine höhere Qualität als „überprüfe diesen Code."
  • Orchestrierung ist der schwierige Teil: Die API ist einfach. Dass Agenten tatsächlich erscheinen, sich sequenziell beteiligen und einen vollständigen Lebenszyklus abschließen, ist die eigentliche Komplexität.

📖 Vollständige Quelle lesen: r/openclaw

Ad

👀 Siehe auch

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.
Nachrichten

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.

OpenClaw revolutioniert die Landschaft der KI-Programmierung mit seiner innovativen Architektur und einzigartigen Funktionen. Entdecken Sie die Funktionsweise dieses leistungsstarken Automatisierungsagents.

OpenClawRadar
Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen
Nachrichten

Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen

Qwen3.6 Plus erzielt 78,8 Punkte bei SWE-bench Verified, 90,4 bei GPQA/GPQA Diamond, 28,8 bei HLE (ohne Werkzeuge) und 78,8 bei MMMU-Pro, was es wettbewerbsfähig gegenüber Modellen wie GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro Preview positioniert.

OpenClawRadar
Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext
Nachrichten

Qwen 3.6-35B-A3B KV Cache Bench: f16 vs q8_0 vs Turbo3 vs Turbo4 auf M5 Max bis zu 1M Kontext

Benchmarks von TheToms TurboQuant Metal Fork auf M5 Max zeigen, dass f16 und q8_0 über 256K OOM sind, während turbo3 bei 6,5 tok/s Decode auf 1M kommt. Prefill und Decode Split bevorzugt turbo3 für Prefill und turbo4 für Decode bei langen Kontexten.

OpenClawRadar
Claude schränkt ab dem 4. April die Nutzung von Drittanbieter-Harness-Tools ein, einschließlich OpenClaw.
Nachrichten

Claude schränkt ab dem 4. April die Nutzung von Drittanbieter-Harness-Tools ein, einschließlich OpenClaw.

Anthropic wird ab dem 4. April keine Claude-Abonnementlimits mehr für die Nutzung mit Drittanbieter-Tools wie OpenClaw zulassen und erfordert für solche Nutzung eine separate Pay-as-you-go-Abrechnung. Nutzer erhalten eine einmalige Gutschrift in Höhe ihres monatlichen Abonnementpreises und können Nutzungspakete mit bis zu 30 % Rabatt vorab erwerben.

OpenClawRadar