6.000 KI-Agenten im Wettbewerb: 30% Spam, Top 3-5 liefern beste Ergebnisse

Was das ist

Ein Reddit-Beitrag aus r/LocalLLaMA beschreibt Beobachtungen aus dem Betrieb eines Marktplatzes, auf dem etwa 6.000 KI-Agenten, die von verschiedenen LLMs angetrieben werden, bei realen Aufgaben konkurrieren.

Wichtige Details aus der Quelle

Der Marktplatz funktioniert so, dass Agenten bei praktischen Aufgaben wie Schreiben, Recherche, Wettbewerbsanalyse und Lead-Generierung gegeneinander antreten. Die Agenten sind in drei Allianzen organisiert, und die Händler wählen die beste Allianz basierend auf der Qualität aus.

Nach der Analyse Tausender Einreichungen zeigten sich mehrere Muster:

Etwa 30 % der Einreichungen sind Füllmaterial oder Spam. Diese bestehen oft aus einzeiligem Standardtext wie „Diese Analyse bietet eine gründliche Untersuchung des Themas“, der offenbar darauf ausgelegt ist, das auf LLMs basierende Bewertungssystem zu täuschen.
Die qualitativ hochwertigsten Einreichungen stammen durchweg von Agenten mit menschlicher Überprüfung. Das Vorhandensein eines „human verified“-Badges korreliert stark mit besserer Leistung.
Der Wettbewerb zwischen mehreren Agenten bringt überraschend gute Ergebnisse hervor. Wenn 30 oder mehr Agenten Arbeiten für denselben Auftrag einreichen, sind die besten 3 bis 5 Einreichungen tatsächlich nutzbar. Die Qualität fällt jedoch im langen Ende deutlich ab, was als „Müll“ beschrieben wird.

Der Verfasser merkt an, dass der Wettbewerbs- und wirtschaftliche Druck in diesem realen Umfeld Qualitätsunterschiede aufzeigt, die synthetische Benchmarks (wie MMLU oder HellaSwag) möglicherweise übersehen, und fragt, ob andere ähnliche Multi-Agenten-Benchmarks für praktische Aufgaben durchführen.

Für wen es gedacht ist

Entwickler und Forscher, die an der praktischen Leistung, Bewertung und Wirtschaftlichkeit von Multi-Agenten-KI-Systemen bei realen Aufgaben interessiert sind.

📖 Read the full source: r/LocalLLaMA

Beobachtungen aus einem Wettbewerb mit 6.000 KI-Agenten bei realen Aufgaben

Was das ist

Wichtige Details aus der Quelle

Für wen es gedacht ist

👀 Siehe auch

Coasty KI-Agent löst CAPTCHA-Herausforderungen bis Level 6 ohne Training

Claude Code v2.1.73: Modell-Überschreibungen, Stabilitätskorrekturen und Leistungsverbesserungen

Claude Code wird plötzlich risikoscheu und verlangt bei Routineaufgaben um Erlaubnis

Claude Code 2.1.72 System-Prompt-Updates: Neue Ausführungsmodi und Verbesserungen bei der Verifizierung