10 KI-Spiele erstellt: LLM-Prompts vs. programmatisches Scaffolding

Systemübersicht und Ergebnisse

Ein Multi-Agenten-System bestehend aus einem Claude-Opus-Orchestrator und Codex-Worker-Agents vollendete 10 vollständig autonome Software-Builds ohne menschliche Code-Intervention. Das System produzierte 10 TypeScript-Browserspiele mit insgesamt über 50.000 Codezeilen und hunderten bestandenen Tests.

Der Orchestrator – ein Frontier-LLM mit Prompt und CLI-Zugriff – zerlegte Ziele, verteilte parallele Worker, analysierte Ergebnisse, priorisierte Fehler und koordinierte die Integration. Es wurde kein programmatisches Gerüst, Zustandsautomat oder Task-Routing verwendet; die Orchestrierungslogik ist ein Prompt, kein Programm.

Wesentliche Erkenntnisse aus der Fallstudie

Umfangskontrolle durch Prompts scheitert vollständig unter Compiler-Druck (0/20), während mechanische Kontrolle durch nachträgliche Dateiwiederherstellung trivial effektiv ist (20/20)
Typverträge sind für Integration in allen getesteten Skalen (6–36 Module) nicht erforderlich, wenn der Integrationsagent uneingeschränkten Edit-Zugriff hat
Der Orchestrator bewahrte perfekte Task-Kontinuität über 11 Kontext-Kompaktierungsereignisse hinweg
Kostenanalyse zeigt einen Statefulness-Aufschlag: bei ~95% Cache-Trefferquote besteht der Großteil der Orchestrator-Verarbeitung aus dem erneuten Lesen vorheriger Konversationskontexte
Eine Bare-Prompt-Ablation widerlegt die starke Behauptung, dass Modelle unabhängig Koordinationsmuster entdecken, zeigt aber, dass Solo-Ausführung koordinierte Builds unter ~30K LOC übertrifft

Systemarchitektur und Daten

Das System verwendet eine Baumarchitektur: Ein Mensch gibt Ziele an einen Claude-Opus-Orchestrator, der Arbeit in parallele Tasks zerlegt und an Codex-Worker verteilt. Worker operieren vollständig autonom und kommunizieren ausschließlich über das Dateisystem.

Der vollständige Datensatz umfasst:

10 Claude-Orchestrator-Sessions (52 MB)
88 Codex-Worker-Sessions (89 MB)
62 Worker-stdout-Logs (186,7 MB, 6,1 Mio. Zeilen)
55 Zieldateien mit vollständigem Prompt-Text
1 TUI-Ereignislog (21 MB, 173.000 Zeilen)

Gesamtkorpus: 295 Mio. Tokens über 88 Codex-Worker-Sessions und 10 Claude-Orchestrator-Sessions.

Systemevolution

Das System entwickelte sich über etwa sechs Monate in fünf Phasen. Der Operator begann mit manuellem Copy-Paste zwischen dualen LLM-Chat-Fenstern, wechselte zu Terminal-CLI-Tools für Dateisystemzugriff, baute dann ein programmatisches Gerüst mit Speicher und Routing. Das Gerüst funktionierte, war aber spröde – jeder Edge-Case erforderte neuen Code. Eine einzelne Claude-Session mit CLI-Zugriff übertraf es.

Das resultierende System, orch-minimal, behält 62.792 Zeilen unterstützenden Codes, aber die Kern-Orchestrierungslogik ist ein Prompt, kein Programm.

📖 Read the full source: r/LocalLLaMA

Fallstudie: Verwendung von LLM-Prompts anstelle von programmatischem Scaffolding für Multi-Agenten-Software-Erstellung

Systemübersicht und Ergebnisse

Wesentliche Erkenntnisse aus der Fallstudie

Systemarchitektur und Daten

Systemevolution

👀 Siehe auch

OpenClaw + Claude Code/Codex im Tandem: ein reales Beispiel für das Beste aus beiden Welten

Multi-Agent-Videoproduktions-Pipeline mit Claude: Skriptvertragsarchitektur und Recherche-Fanout

Wie Claude eine vorgerichtliche Abmahnung verfasste und eine vollständige Rückerstattung für ein defektes MacBook erhielt

Mehrere KI-Codierungsagenten mit OpenClaw ausführen: Einrichtung benutzerdefinierter Anbieter & Herausforderungen des agentenübergreifenden Gedächtnisses