Nanocode: Training Claude-like coding agents with JAX on TPUs

Nanocode ist eine Bibliothek, die zeigt, wie man sein eigenes Claude Code-Modell end-to-end mit Constitutional AI nach Anthropics Ansatz trainiert. Vollständig in JAX geschrieben und für TPUs optimiert, adaptiert es die Infrastruktur von Karpathys nanochat-Projekt.
Trainingssetup und Kosten
Das nanocode-d24-Modell (1,3 Milliarden Parameter) kann in etwa 9 Stunden auf einem TPU v6e-8 zu Kosten von 200 US-Dollar reproduziert werden. Das kleinere nanocode-d20-Modell (477 Millionen Parameter) trainiert in etwa 1,5 Stunden für 34 US-Dollar. Das Projekt empfiehlt die Nutzung von Googles TRC-Programm für einen Monat kostenlosen Zugang zu pre-emptible TPUs oder die 300-US-Dollar-Gutschriften von Google Cloud für neue Konten.
Technische Umsetzung
Der Trainingsprozess umfasst:
- Erstellen einer SOUL.md-Datei zur Definition der Modellausrichtung
- Definition einer agentenbasierten Schnittstelle für Weltinteraktion
- Generierung synthetischer Daten
- Verwendung von Präferenzoptimierung zur Ausrichtung des Modells an SOUL
Tokenisierung und Pretraining-Unterschiede
Während der Pretraining- und Tokenizer-Trainingsprozess nanochat ähnelt, enthält nanocode zusätzliche Coding-Daten von The Stack-V2 im Verhältnis 1:5 sowohl in Pretraining- als auch Tokenizer-Mischungen. Dies führt zu besserer Coding-Leistung, reduziert aber die Effizienz der allgemeinen Text-Tokenisierung.
Ein Tokenizer-Vergleich zeigt, dass nanocode eine um -50,9 % bessere Tokenisierung für Code erreicht als nanochat, während nanochat bei koreanischem Text besser abschneidet (+7,9 % für nanocode bei Nachrichten, -27,6 % bei Koreanisch).
Befehle und Setup
export NANOCODE_BASE_DIR="$HOME/.cache/nanocode"
export MODEL_TAG=d24
python -m data.pretrain -d fineweb-edu -n 300
python -m data.pretrain -d the-stack-v2-dedup -n 60
python -m scripts.tok_train --max-chars=2000000000
python -m scripts.tok_eval
Die Modelle werden mit einem Parameter:Daten-Verhältnis von 8 trainiert, entsprechend nanochats Skalierungsgesetz-Analyse. Obwohl für TPUs optimiert, sollte nanocode auch auf NVIDIA-GPUs ohne Anpassungen funktionieren.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit
Ein Live-Dashboard visualisiert ELO-Bewertungen der Flaggschiff-Modelle großer KI-Labors und zeigt eine allmähliche Leistungsverschlechterung sowie plötzliche Sprünge bei neuen Veröffentlichungen. Das Tool zeichnet dynamisch eine Kurve pro Labor und verfolgt das am höchsten bewertete Modell.

IM für Agenten: REST-basiertes Chatroom für die Kommunikation zwischen KI-Agenten ohne SDKs
Ein Entwickler hat IM for Agents erstellt, ein Tool, das gemeinsame Chaträume erzeugt, in denen KI-Agenten direkt über REST-API kommunizieren, ohne SDKs oder Konfigurationsdateien. Agenten verwenden eine einfache Eingabeaufforderung, um Räumen beizutreten, und können APIs aushandeln, Code schreiben und Arbeiten überprüfen, während Menschen beobachten.

AgentMind: Ein Claude-Code-Plugin, das Ihre Programmierpräferenzen lernt und anwendet
AgentMind ist ein Claude Code-Plugin, das Ihre Codierungsmuster beobachtet, Präferenzen wie Werkzeugauswahl und Stilregeln lernt und diesen Kontext automatisch in zukünftige Sitzungen einfügt. Es verwendet eine sechsstufige Kernschleife und Konfidenzbewertung, um zu bestimmen, wann gelernte Präferenzen angewendet werden sollen.

Pilot-Protokoll: Ein P2P-Netzwerk-Stack für KI-Agenten, entwickelt mit Claude
Ein Entwickler hat das Pilot Protocol entwickelt, einen reinen User-Space-Peer-to-Peer-Virtual-Network-Stack in Go, speziell für autonome KI-Agenten, der direkte Kommunikation ohne zentrale Infrastruktur ermöglicht. Das Protokoll nutzt UDP-Multiplexing, NAT-Traversal und Ende-zu-Ende-Verschlüsselung, mit Benchmarks, die einen lokalen Durchsatz von 89 MB/s und einen transkontinentalen WAN-Durchsatz von 2,1 MB/s zeigen.