Claude-KI-Agenten bauen Simulator, optimieren Spielalgorithmus, um menschliche Punktzahl zu übertreffen

Ein Entwickler testete, ob KI-Agenten Menschen im Programmier-Spiel The Farmer Was Replaced übertreffen könnten. Da KI-Agenten Schwierigkeiten haben, grafische Benutzeroberflächen direkt zu bedienen, bestand die Strategie darin, ein Team von Claude-Agenten zunächst einen Python-basierten Simulator erstellen zu lassen, der die Spielmechanik und -regeln perfekt widerspiegelte. Sobald der Simulator fertig war, sollte ein zweites Agententeam ihn nutzen, um iterativ einen optimalen Algorithmus für die Ernte von Sonnenblumen zu entwickeln und zu entdecken.
Entwicklungsprozess und Herausforderungen
Der Prozess begann mit einem Experiment, bei dem die „Agententeams“-Funktion von Claude Code genutzt wurde, um ein einfaches Tic-Tac-Toe-Spiel zu erstellen, was erfolgreich war und Vertrauen für das komplexere Landwirtschaftsprojekt schuf. Die Hochskalierung brachte jedoch Herausforderungen mit sich: Der Teamleiter der Agenten wurde zum Engpass, verbrauchte 91 % der Sitzungstokens und versäumte es, proaktiv menschliches Feedback einzuholen, um den Simulator an das echte Spiel anzupassen. Nachdem der Entwickler erkannte, dass die Agententeam-Infrastruktur für diese spezifische Aufgabe zu überkompliziert und teuer wurde, wechselte er zurück zu Cursor und einem direkteren Prompting-Ansatz, um den Simulator erfolgreich fertigzustellen.
Ergebnisse und Algorithmus-Iterationen
Claude Opus durfte über Nacht laufen und produzierte 10 zunehmend bessere Iterationen des Sonnenblumen-Algorithmus. Diese reichten von grundlegender Ernte bis hin zu Mikrooptimierungen wie der Auswahl der nächstgelegenen Kachel und serpentinenartiger Navigation. In der finalen Iteration erreichte die KI eine Zeit von 5:21, übertraf damit offiziell die persönliche Bestzeit des Entwicklers und landete auf Platz 30 der globalen Bestenliste.
Das Experiment zeigte, dass eine KI, wenn sie mit Dokumentation und einer Sandbox zum Testen ihrer Ideen ausgestattet wird, den menschlichen Programmierer ersetzen kann – zumindest wenn es darum geht, Sonnenblumenerträge in diesem spezifischen Spielkontext zu optimieren.
Der während dieses Projekts erstellte Simulator steht anderen zur Verfügung, um ihn mit verschiedenen KI-Modellen zu nutzen und zu testen.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch
Claude Code vs Codex: Aufschlüsselung eines praktischen Experiments mit 6 Projekten
Ein praktischer Experiment, das Claude Code und Codex in 6 Projekten vergleicht – Web, Backend und freie Challenge – mit gegenseitigen Reviews, Selbstaudits und Bewertungen.

Spieleentwickler nutzt OpenClaw für automatisierte Feedback-Erfassung und Code-Refactoring.
Ein Spieleentwickler betreibt OpenClaw als Hintergrunddienst auf einem MacBook, um zwei Projekte zu verwalten: Heretical (ein Steam-Spiel) und Duskland (ein TypeScript-Projekt). Das System nutzt Claude-Modelle über Discord und Telegram, mit lokalen Markdown-Speicherdateien.

Ausführen von Gemma 4 als lokaler autonomer Agent mit Claude Code auf 16 GB VRAM
Ein Entwickler hat Googles Gemma 4 31B-Modell erfolgreich als lokalen autonomen Coding-Agent konfiguriert, indem er es über Claude Code CLI v2.1.92 zum Laufen brachte. Dabei überwand er VRAM-Beschränkungen und Parsing-Probleme mithilfe von llama.cpp b8672 und einem benutzerdefinierten Python-Routing.

Multi-Agent-Systeme scheitern leise mit Müllausgaben und erfordern Metadatenvalidierung
Ein Entwickler, der ein System mit 39 Agenten zwei Wochen lang betrieb, stellte fest, dass, wenn ein Agent fehlerhafte Ausgaben erzeugt, nachgelagerte Agenten diese selbstbewusst verarbeiten und geschliffene, aber erfundene Ergebnisse liefern. Die Lösung besteht darin, Ausgaben in Metadaten-Umschläge zu verpacken, die den Abschluss der Aufgabe und die Anzahl der Quellen angeben.