Autoevolve: KI-Spielentwicklung mit Claude Code

Wettbewerbsergebnisse und Vorgehensweise

Ein Entwickler nutzte Claude Code als sein gesamtes Entwicklungsteam für den Game AI Cup, einen Wettbewerb im kompetitiven Programmieren, bei dem Teilnehmer Bots für ein 2D-Physik-basiertes Spiel schreiben. Der von Claude generierte Bot erreichte den 6. Platz unter 83 Teilnehmern über drei Runden.

Der Ansatz war von Karpathys Autoresearch-Konzept inspiriert, bei dem ein LLM-Agent über Nacht an Code iteriert. Der Entwickler baute ein kleines Framework namens autoevolve, das dies für Selbstspiel-Domänen anpasst – anstatt eine einzelne Metrik zu optimieren, treten Versionen gegeneinander im direkten Vergleich an.

Die Evolutionsschleife

Der Arbeitsablauf folgte dieser Schleife:

Claude Code liest den aktuellen Bot
Analysiert, warum er bestimmte Matches verlor
Schlägt eine gezielte Änderung vor
Die neue Version wird gegen vorherige Versionen gebenchmarkt
Version behalten oder verwerfen
Den Prozess wiederholen

Der Entwickler führte über mehrere Wochen hinweg etwa 130 Iterationen über drei Wettbewerbsrunden durch.

Wichtige Erkenntnisse aus dem Experiment

Strukturelle Änderungen übertrafen Parameteranpassungen: Jeder Durchbruch beinhaltete das Hinzufügen neuer Fähigkeiten wie modellprädiktive Steuerung, eine Torwartrolle oder energiebewusste Planung. Dutzende von Schwellenwert- und Gewichtsanpassungen waren flach oder negativ. Der Fortschritt war schneller, wenn Claude in Richtung „füge ein neues Verhalten hinzu“ statt „passe diese Zahl an“ geleitet wurde.

Emergentes Verhalten war im Code lesbar: Nachdem Claude eine Energiekostenfunktion korrigiert hatte, begann der Optimierer, Wandabpraller zu nutzen, um die Richtung umzukehren – das Abprallen von Wänden ermöglicht eine kostenlose Richtungsänderung ohne Energieverbrauch. Dieses Verhalten wurde nie explizit programmiert, ist aber vollständig im Code lesbar, anders als bei neuronalen Netzwerk-Ansätzen, die eine Blackbox erzeugen würden.

Fehlerbehebungen verstärken sich in Isolation: Das Vermischen von Fehlerbehebungen mit Strategieänderungen führte zu Rauschen. Zwei Korrekturen allein in einer Version schlugen alle Top-Konkurrenten, aber dieselben Behebungen, gebündelt mit einer Strategieänderung in einer anderen Version, waren flach.

Das Änderungsprotokoll war entscheidend: Jede Version enthielt Claudes Vorschlag, erwartetes Ergebnis, tatsächliches Ergebnis und gelernte Lektionen. Dies ermöglichte es dem Entwickler, Claude zu sagen „dieser Ansatz ist dreimal gescheitert, hör auf, ihn zu versuchen“ und wiederholte gescheiterte Experimente zu vermeiden.

Breitere Anwendungen

Der Entwickler entdeckte die awesome-autoresearch-Liste, die ähnliche „LLM iteriert über Nacht an Code“-Muster zeigt, die anderswo angewendet wurden: Shopify's CEO erreichte 53 % schnellere Template-Rendering mit 93 automatisierten Commits, jemand skalierte CUDA-Kernel von 18 auf 187 TFLOPS, und die Vesuvius Challenge nutzte es zur Entzifferung antiker Schriftrollen.

Erste Schritte mit Autoevolve

Das autoevolve-Framework funktioniert als Claude Code Skill. Installiere es mit:

npx skills add MrTsepa/autoevolve

Dann weise Claude an, ein Evolutionsexperiment einzurichten. Das Framework übernimmt Bewertungen, Matchmaking, Pareto-Front-Tracking und Visualisierung.

📖 Read the full source: r/ClaudeAI