Autoevolve Framework nutzt Claude Code für die Entwicklung von KI in Spielen durch Selbstspiel-Evolution

Wettbewerbsergebnisse und Vorgehensweise
Ein Entwickler nutzte Claude Code als sein gesamtes Entwicklungsteam für den Game AI Cup, einen Wettbewerb im kompetitiven Programmieren, bei dem Teilnehmer Bots für ein 2D-Physik-basiertes Spiel schreiben. Der von Claude generierte Bot erreichte den 6. Platz unter 83 Teilnehmern über drei Runden.
Der Ansatz war von Karpathys Autoresearch-Konzept inspiriert, bei dem ein LLM-Agent über Nacht an Code iteriert. Der Entwickler baute ein kleines Framework namens autoevolve, das dies für Selbstspiel-Domänen anpasst – anstatt eine einzelne Metrik zu optimieren, treten Versionen gegeneinander im direkten Vergleich an.
Die Evolutionsschleife
Der Arbeitsablauf folgte dieser Schleife:
- Claude Code liest den aktuellen Bot
- Analysiert, warum er bestimmte Matches verlor
- Schlägt eine gezielte Änderung vor
- Die neue Version wird gegen vorherige Versionen gebenchmarkt
- Version behalten oder verwerfen
- Den Prozess wiederholen
Der Entwickler führte über mehrere Wochen hinweg etwa 130 Iterationen über drei Wettbewerbsrunden durch.
Wichtige Erkenntnisse aus dem Experiment
Strukturelle Änderungen übertrafen Parameteranpassungen: Jeder Durchbruch beinhaltete das Hinzufügen neuer Fähigkeiten wie modellprädiktive Steuerung, eine Torwartrolle oder energiebewusste Planung. Dutzende von Schwellenwert- und Gewichtsanpassungen waren flach oder negativ. Der Fortschritt war schneller, wenn Claude in Richtung „füge ein neues Verhalten hinzu“ statt „passe diese Zahl an“ geleitet wurde.
Emergentes Verhalten war im Code lesbar: Nachdem Claude eine Energiekostenfunktion korrigiert hatte, begann der Optimierer, Wandabpraller zu nutzen, um die Richtung umzukehren – das Abprallen von Wänden ermöglicht eine kostenlose Richtungsänderung ohne Energieverbrauch. Dieses Verhalten wurde nie explizit programmiert, ist aber vollständig im Code lesbar, anders als bei neuronalen Netzwerk-Ansätzen, die eine Blackbox erzeugen würden.
Fehlerbehebungen verstärken sich in Isolation: Das Vermischen von Fehlerbehebungen mit Strategieänderungen führte zu Rauschen. Zwei Korrekturen allein in einer Version schlugen alle Top-Konkurrenten, aber dieselben Behebungen, gebündelt mit einer Strategieänderung in einer anderen Version, waren flach.
Das Änderungsprotokoll war entscheidend: Jede Version enthielt Claudes Vorschlag, erwartetes Ergebnis, tatsächliches Ergebnis und gelernte Lektionen. Dies ermöglichte es dem Entwickler, Claude zu sagen „dieser Ansatz ist dreimal gescheitert, hör auf, ihn zu versuchen“ und wiederholte gescheiterte Experimente zu vermeiden.
Breitere Anwendungen
Der Entwickler entdeckte die awesome-autoresearch-Liste, die ähnliche „LLM iteriert über Nacht an Code“-Muster zeigt, die anderswo angewendet wurden: Shopify's CEO erreichte 53 % schnellere Template-Rendering mit 93 automatisierten Commits, jemand skalierte CUDA-Kernel von 18 auf 187 TFLOPS, und die Vesuvius Challenge nutzte es zur Entzifferung antiker Schriftrollen.
Erste Schritte mit Autoevolve
Das autoevolve-Framework funktioniert als Claude Code Skill. Installiere es mit:
npx skills add MrTsepa/autoevolveDann weise Claude an, ein Evolutionsexperiment einzurichten. Das Framework übernimmt Bewertungen, Matchmaking, Pareto-Front-Tracking und Visualisierung.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Entwickler baut maßgeschneidertes Geschäftssystem auf Claude mit persistenter Speicherung und Skill-Kompositionen
Ein Entwickler hat ein benutzerdefiniertes System auf Claude Pro erstellt, das über grundlegende Aufgaben hinausgeht. Es verfügt über 13 benutzerdefinierte Fähigkeiten mit definierten Eingaben/Ausgaben, persistentem Speicher über Sitzungen hinweg, automatisierten täglichen Briefings und Fähigkeitskompositionen, die Operationen verketten oder parallelisieren. Das System läuft auf Supabase, Cloudflare Pages und Vanilla HTML/CSS/JS.

Entwickler erwägt Wechsel von DeepSeek zu Grok für Finanz-KI-Agenten
Ein Entwickler, der eine Finanz-KI-Web-App in FastAPI/Python erstellt, berichtet, dass DeepSeek V3.2 Reasoning eine TTFT von 70 Sekunden und eine Ausgabegeschwindigkeit von ~25 Token/Sekunde hat, was das Streaming-Erlebnis schlecht macht. Er erwägt den Wechsel zu Grok 4.1 Fast Reasoning mit ~15 Sekunden TTFT und ~75 Token/Sekunde.

Wie Claude die Website eines Nicht-Entwicklers mit SEO und AEO auf 10.000 Nutzer brachte
Ein Nicht-Entwickler nutzte Claude für SEO-Content-Strategie, AEO-Optimierung und technische Audits, um einen KI-Skills-Marktplatz in 6 Wochen von 0 auf 10.000 aktive Nutzer zu bringen – ohne Werbeausgaben.

Betreiben eines KI-gesteuerten Stores: Lehren aus Ultrathink.art
Das Team hinter ultrathink.art, einem E-Commerce-Shop, in dem jede Funktion von KI-Agenten übernommen wird, teilt Einblicke darüber, wie man Agenten eher wie Auftragnehmer behandelt als wie ausgefeilte Autovervollständigung. Zu den wesentlichen Unterschieden gehören, wie man ihre Aufgaben definiert, welche Informationen man bereitstellt und wie man die Fertigstellung überprüft.