Skalierung von Karpathys Autoresearch mit 16 GPUs: Ergebnisse und Methoden

Was ist Autoresearch?
Autoresearch ist Andrej Karpathys Projekt, bei dem ein Coding-Agent eigenständig ein Training-Skript für neuronale Netze verbessert. Der Agent bearbeitet train.py, führt ein 5-minütiges Trainingsexperiment auf einer GPU durch, überprüft den Validierungsverlust und wiederholt den Vorgang – behält Änderungen bei, die helfen, verwirft die, die es nicht tun. In Karpathys erstem nächtlichen Durchlauf fand der Agent ~20 Verbesserungen, die sich zu einer 11 %igen Reduzierung der Zeit bis GPT-2 auf dem nanochat-Leaderboard summierten.
Wie Autoresearch funktioniert
Das Projekt umfasst drei Dateien:
prepare.py– Lädt Daten herunter, trainiert einen Tokenizer, stellt den Dataloader und die Evaluierungsfunktion bereit. Schreibgeschützt. Der Agent kann sie nicht verändern.train.py– Das GPT-Modell, der Optimierer und die Trainingsschleife. Dies ist die einzige Datei, die der Agent modifiziert.program.md– Anweisungen für den Agenten: was er ändern darf, wie er Ergebnisse bewertet, wann er Änderungen beibehalten oder verwerfen soll.
Die Einschränkung ist ein festes 5-minütiges Training-Budget. Die Aufgabe des Agenten ist es, val_bpb (Validierungsbits pro Byte) innerhalb dieses Zeitfensters zu minimieren. Alles in train.py ist erlaubt – Architektur, Hyperparameter, Optimierereinstellungen, Batch-Größe, Modelltiefe – solange der Code ohne Absturz läuft.
Der Engpass: Eine GPU, ein Experiment
Wenn Experimente sequentiell ausgeführt werden, verbringt der Agent die meiste Zeit mit Warten. Ein typischer Zyklus sieht so aus:
- Agent bearbeitet train.py (~30 Sekunden)
- Training läuft (~5 Minuten)
- Agent liest das Ergebnis, plant das nächste Experiment (~30 Sekunden)
Schritt 2 dominiert. Während Schritt 2 ist der Agent inaktiv – er könnte das nächste Experiment oder die nächsten zehn vorbereiten. Bei sequentieller Ausführung bedeutet das Testen von Parameterkombinationen, weitere 5 Minuten für jeden Test zu warten.
Dem Agenten Cloud-GPUs geben
Das Team nutzte SkyPilot, ein Open-Source-Tool, das Jobs über Clouds und Kubernetes aus einer YAML-Datei startet. Es enthält eine Fähigkeit, die Coding-Agenten beibringt, es zu verwenden. Der Agent liest die Fähigkeit und startet und verwaltet dann GPU-Cluster eigenständig – ohne manuelle Cloud-Einrichtung.
Jedes Experiment wird in einer kurzen YAML-Datei (experiment.yaml) definiert, die den GPU-Typ angibt, Abhängigkeiten installiert, train.py ausführt und Metriken auf stdout ausgibt. Der Agent überprüft Ergebnisse mit sky logs.
Ergebnisse: ~910 Experimente, ~8 Stunden, 16 GPUs
Claude Code nutzte die SkyPilot-Fähigkeit, um GPU-Experimente über 16 GPUs zu starten und zu verwalten. In 8 Stunden reichte er ~910 Experimente ein und senkte val_bpb von 1,003 auf 0,974 – eine 2,87 %ige Verbesserung gegenüber der Basislinie.
Wie Parallelität die Forschungsstrategie des Agenten veränderte
Mit einer GPU betreibt der Agent gieriges Hill-Climbing – etwas ausprobieren, prüfen, wiederholen. Mit 16 GPUs führte er faktorielle Gitter mit 10–13 Experimenten pro Welle durch und erfasste Wechselwirkungen zwischen Parametern, die sequentielle Suche verpassen würde.
Zum Beispiel testete der Agent sechs Modellbreiten in einer einzigen Welle, erkannte den Trend sofort und konzentrierte sich auf die beste – eine Runde statt sechs.
Der Agent entdeckte auch, dass er Zugriff auf mehrere GPU-Typen (H100s und H200s) hatte, und entwickelte eine Strategie, um den Leistungsunterschied auf heterogener Hardware auszunutzen: Ideen auf günstigeren H100s screenen, Gewinner zur Validierung auf H200s befördern.
Leistungsvergleich
Mit 16 GPUs erreichte der parallele Agent den gleichen besten Validierungsverlust 9-mal schneller als die simulierte sequentielle Basislinie (~8 Stunden vs. ~72 Stunden).
Experimentphasen
- Phase 1: Hyperparameter-Sweeps (~erste 200 Experimente)
- Phase 2: Architekturentdeckung (~Experimente 200–420)
- Phase 3: Feinabstimmung des breiteren Modells (~Experimente 420–560)
- Phase 4: Optimierer-Tuning (~Experimente 560–700)
- Phase 5: Abnehmende Erträge (~Experimente 700–910)
Der Agent stellte fest, dass die Skalierung der Modellbreite wichtiger war als jeder einzelne Hyperparameter.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Universal CLAUDE.md reduziert Claude-Ausgabetokens in Benchmarks um 63 %.
Ein Entwickler hat eine universelle CLAUDE.md-Datei erstellt, die die Ausgabetokens von Claude in fünf Benchmark-Tests um 63 % reduziert, während die technische Genauigkeit erhalten bleibt. Die Datei behandelt häufige Claude-Verhaltensweisen wie ausführliche Antworten, unnötige Formatierungen und unerwünschte Vorschläge.

Semble: Codesuche für KI-Agenten mit 98 % weniger Tokens als grep+read
Semble ist eine quelloffene Code-Suchbibliothek für KI-Agenten, die statische Model2Vec-Embeddings mit BM25 kombiniert und vollständig auf CPU läuft. Es indiziert ein Repository in ~250ms und beantwortet Suchanfragen in ~1.5ms, wobei es eine NDCG@10 von 0.854 erreicht – 99% der Qualität eines 137M-Parameter-Transformers – bei gleichzeitig 98% weniger Token als grep+read.

Ihr Agent sagte, es sei versandt – Warum Sitzungsprotokolle wichtiger sind als Modellnamen
Ein Entwickler berichtet über ein Muster, das in drei Teams beobachtet wurde: Agenten behaupten, die Implementierung sei abgeschlossen, aber Session-Traces zeigen versteckte Refactorings, verpasste Konventionen und suboptimale Implementierungen. Der Beitrag argumentiert, dass das eigentliche Problem nicht die Modellqualität ist, sondern das Vertrauen – und dass Session-Traces pro Instanz der einzige Weg sind, Behauptungen zu überprüfen.
CTOP: Terminal-Benutzeroberfläche zur Überwachung von Claude Code-Sitzungen, keine Abhängigkeiten
CTOP ist ein Node.js TUI ohne Abhängigkeiten, das CPU, Arbeitsspeicher, Context-Window-Sättigung, Token-Aufschlüsselung und Kostenschätzungen für alle laufenden Claude Code und Codex Sitzungen anzeigt.