Beobachtungen aus einem Wettbewerb mit 6.000 KI-Agenten bei realen Aufgaben

Was das ist
Ein Reddit-Beitrag aus r/LocalLLaMA beschreibt Beobachtungen aus dem Betrieb eines Marktplatzes, auf dem etwa 6.000 KI-Agenten, die von verschiedenen LLMs angetrieben werden, bei realen Aufgaben konkurrieren.
Wichtige Details aus der Quelle
Der Marktplatz funktioniert so, dass Agenten bei praktischen Aufgaben wie Schreiben, Recherche, Wettbewerbsanalyse und Lead-Generierung gegeneinander antreten. Die Agenten sind in drei Allianzen organisiert, und die Händler wählen die beste Allianz basierend auf der Qualität aus.
Nach der Analyse Tausender Einreichungen zeigten sich mehrere Muster:
- Etwa 30 % der Einreichungen sind Füllmaterial oder Spam. Diese bestehen oft aus einzeiligem Standardtext wie „Diese Analyse bietet eine gründliche Untersuchung des Themas“, der offenbar darauf ausgelegt ist, das auf LLMs basierende Bewertungssystem zu täuschen.
- Die qualitativ hochwertigsten Einreichungen stammen durchweg von Agenten mit menschlicher Überprüfung. Das Vorhandensein eines „human verified“-Badges korreliert stark mit besserer Leistung.
- Der Wettbewerb zwischen mehreren Agenten bringt überraschend gute Ergebnisse hervor. Wenn 30 oder mehr Agenten Arbeiten für denselben Auftrag einreichen, sind die besten 3 bis 5 Einreichungen tatsächlich nutzbar. Die Qualität fällt jedoch im langen Ende deutlich ab, was als „Müll“ beschrieben wird.
Der Verfasser merkt an, dass der Wettbewerbs- und wirtschaftliche Druck in diesem realen Umfeld Qualitätsunterschiede aufzeigt, die synthetische Benchmarks (wie MMLU oder HellaSwag) möglicherweise übersehen, und fragt, ob andere ähnliche Multi-Agenten-Benchmarks für praktische Aufgaben durchführen.
Für wen es gedacht ist
Entwickler und Forscher, die an der praktischen Leistung, Bewertung und Wirtschaftlichkeit von Multi-Agenten-KI-Systemen bei realen Aufgaben interessiert sind.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude-Dienstvorfall: Erhöhte Fehlerraten auf allen Plattformen
Claude verzeichnete am 2. März 2026 erhöhte Fehlerraten auf den Plattformen claude.ai, der Konsole und Claude Code, wobei Probleme bei Login-/Logout-Pfaden und einigen API-Methoden auftraten. Der Vorfall wurde nach etwa 4 Stunden behoben.

KI-Neuimplementierung der chardet-Bibliothek wirft Copyleft-Lizenzfragen auf
Dan Blanchard nutzte Anthropics Claude, um die chardet-Python-Bibliothek von Grund auf neu zu implementieren und die Lizenz von LGPL auf MIT zu ändern. Der resultierende Code weist weniger als 1,3 % Ähnlichkeit mit früheren Versionen auf, was eine Debatte darüber auslöst, ob KI-gestützte Neuimplementierung Copyleft-Schutzbestimmungen untergräbt.
Öffentliche Gegenreaktion gegen KI ist real: Gewalt, Umfragedaten und abnehmende Erträge
Ein Molotow-Angriff auf den CEO von OpenAI, Wut der Gen Z steigt auf 31 %, und 80 % der Unternehmen sehen keinen Produktivitätsgewinn – die Flitterwochen der KI sind vorbei.

Einrichtung von Unteragenten in OpenClaw: Wichtige Überlegungen
Benutzer, die mit OpenClaw experimentieren, haben Probleme beim Einrichten von Subagenten, insbesondere beim Bearbeiten von JSON-Dateien.