Nanocode: Training Claude-like coding agents with JAX on TPUs

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Nanocode: Training Claude-like coding agents with JAX on TPUs
Ad

Nanocode ist eine Bibliothek, die zeigt, wie man sein eigenes Claude Code-Modell end-to-end mit Constitutional AI nach Anthropics Ansatz trainiert. Vollständig in JAX geschrieben und für TPUs optimiert, adaptiert es die Infrastruktur von Karpathys nanochat-Projekt.

Trainingssetup und Kosten

Das nanocode-d24-Modell (1,3 Milliarden Parameter) kann in etwa 9 Stunden auf einem TPU v6e-8 zu Kosten von 200 US-Dollar reproduziert werden. Das kleinere nanocode-d20-Modell (477 Millionen Parameter) trainiert in etwa 1,5 Stunden für 34 US-Dollar. Das Projekt empfiehlt die Nutzung von Googles TRC-Programm für einen Monat kostenlosen Zugang zu pre-emptible TPUs oder die 300-US-Dollar-Gutschriften von Google Cloud für neue Konten.

Technische Umsetzung

Der Trainingsprozess umfasst:

  • Erstellen einer SOUL.md-Datei zur Definition der Modellausrichtung
  • Definition einer agentenbasierten Schnittstelle für Weltinteraktion
  • Generierung synthetischer Daten
  • Verwendung von Präferenzoptimierung zur Ausrichtung des Modells an SOUL
Ad

Tokenisierung und Pretraining-Unterschiede

Während der Pretraining- und Tokenizer-Trainingsprozess nanochat ähnelt, enthält nanocode zusätzliche Coding-Daten von The Stack-V2 im Verhältnis 1:5 sowohl in Pretraining- als auch Tokenizer-Mischungen. Dies führt zu besserer Coding-Leistung, reduziert aber die Effizienz der allgemeinen Text-Tokenisierung.

Ein Tokenizer-Vergleich zeigt, dass nanocode eine um -50,9 % bessere Tokenisierung für Code erreicht als nanochat, während nanochat bei koreanischem Text besser abschneidet (+7,9 % für nanocode bei Nachrichten, -27,6 % bei Koreanisch).

Befehle und Setup

export NANOCODE_BASE_DIR="$HOME/.cache/nanocode"
export MODEL_TAG=d24
python -m data.pretrain -d fineweb-edu -n 300
python -m data.pretrain -d the-stack-v2-dedup -n 60
python -m scripts.tok_train --max-chars=2000000000
python -m scripts.tok_eval

Die Modelle werden mit einem Parameter:Daten-Verhältnis von 8 trainiert, entsprechend nanochats Skalierungsgesetz-Analyse. Obwohl für TPUs optimiert, sollte nanocode auch auf NVIDIA-GPUs ohne Anpassungen funktionieren.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit
Werkzeuge

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit

Ein Live-Dashboard visualisiert ELO-Bewertungen der Flaggschiff-Modelle großer KI-Labors und zeigt eine allmähliche Leistungsverschlechterung sowie plötzliche Sprünge bei neuen Veröffentlichungen. Das Tool zeichnet dynamisch eine Kurve pro Labor und verfolgt das am höchsten bewertete Modell.

OpenClawRadar
IM für Agenten: REST-basiertes Chatroom für die Kommunikation zwischen KI-Agenten ohne SDKs
Werkzeuge

IM für Agenten: REST-basiertes Chatroom für die Kommunikation zwischen KI-Agenten ohne SDKs

Ein Entwickler hat IM for Agents erstellt, ein Tool, das gemeinsame Chaträume erzeugt, in denen KI-Agenten direkt über REST-API kommunizieren, ohne SDKs oder Konfigurationsdateien. Agenten verwenden eine einfache Eingabeaufforderung, um Räumen beizutreten, und können APIs aushandeln, Code schreiben und Arbeiten überprüfen, während Menschen beobachten.

OpenClawRadar
AgentMind: Ein Claude-Code-Plugin, das Ihre Programmierpräferenzen lernt und anwendet
Werkzeuge

AgentMind: Ein Claude-Code-Plugin, das Ihre Programmierpräferenzen lernt und anwendet

AgentMind ist ein Claude Code-Plugin, das Ihre Codierungsmuster beobachtet, Präferenzen wie Werkzeugauswahl und Stilregeln lernt und diesen Kontext automatisch in zukünftige Sitzungen einfügt. Es verwendet eine sechsstufige Kernschleife und Konfidenzbewertung, um zu bestimmen, wann gelernte Präferenzen angewendet werden sollen.

OpenClawRadar
Pilot-Protokoll: Ein P2P-Netzwerk-Stack für KI-Agenten, entwickelt mit Claude
Werkzeuge

Pilot-Protokoll: Ein P2P-Netzwerk-Stack für KI-Agenten, entwickelt mit Claude

Ein Entwickler hat das Pilot Protocol entwickelt, einen reinen User-Space-Peer-to-Peer-Virtual-Network-Stack in Go, speziell für autonome KI-Agenten, der direkte Kommunikation ohne zentrale Infrastruktur ermöglicht. Das Protokoll nutzt UDP-Multiplexing, NAT-Traversal und Ende-zu-Ende-Verschlüsselung, mit Benchmarks, die einen lokalen Durchsatz von 89 MB/s und einen transkontinentalen WAN-Durchsatz von 2,1 MB/s zeigen.

OpenClawRadar