Nanocode: entrenar agentes de codificación con JAX y TPUs

Nanocode es una biblioteca que demuestra cómo entrenar tu propio modelo Claude Code de extremo a extremo usando Constitutional AI, siguiendo el enfoque de Anthropic. Escrito completamente en JAX y optimizado para TPUs, adapta la infraestructura del proyecto nanochat de Karpathy.

Configuración y Costos de Entrenamiento

El modelo nanocode-d24 (1.3B parámetros) puede reproducirse en aproximadamente 9 horas en una TPU v6e-8 a un costo de $200. El modelo más pequeño nanocode-d20 (477M parámetros) se entrena en aproximadamente 1.5 horas por $34. El proyecto recomienda usar el programa TRC de Google para acceso gratuito a TPUs preemptibles por un mes, o los créditos de $300 de Google Cloud para cuentas nuevas.

Implementación Técnica

El proceso de entrenamiento incluye:

Escribir un archivo SOUL.md para definir la alineación del modelo
Definir una interfaz agéntica para interacción con el mundo
Generar datos sintéticos
Usar optimización de preferencias para alinear el modelo con SOUL

Diferencias en Tokenización y Pre-entrenamiento

Aunque el proceso de pre-entrenamiento y entrenamiento del tokenizador es similar a nanochat, nanocode incluye datos adicionales de codificación de The Stack-V2 en una proporción 1:5 tanto en las mezclas de pre-entrenamiento como del tokenizador. Esto resulta en un mejor rendimiento de codificación pero reduce la eficiencia de tokenización de texto general.

La comparación de tokenizadores muestra que nanocode logra un -50.9% mejor tokenización para código en comparación con nanochat, mientras que nanochat funciona mejor con texto coreano (+7.9% para nanocode en noticias, -27.6% en coreano).

Comandos y Configuración

export NANOCODE_BASE_DIR="$HOME/.cache/nanocode"
export MODEL_TAG=d24
python -m data.pretrain -d fineweb-edu -n 300
python -m data.pretrain -d the-stack-v2-dedup -n 60
python -m scripts.tok_train --max-chars=2000000000
python -m scripts.tok_eval

Los modelos se entrenan con una proporción parámetro:datos de 8, siguiendo el análisis de leyes de escala de nanochat. Aunque optimizado para TPUs, nanocode también debería funcionar en GPUs NVIDIA sin modificaciones.

📖 Leer la fuente completa: HN AI Agents

Nanocode: Entrenamiento de agentes de codificación similares a Claude con JAX en TPUs

Configuración y Costos de Entrenamiento

Implementación Técnica

Diferencias en Tokenización y Pre-entrenamiento

Comandos y Configuración

👀 Ver también

Tocket CLI: Un Marco de Ingeniería de Contexto para Agentes de Codificación de IA

SDK de Memoria Engram: Memoria Basada en Grafos para Agentes de IA con Modelos Locales

El modelo Qwen3-0.6B ajustado supera al maestro de 120B en llamadas a funciones estructuradas.

Token Enhancer reduce el uso de tokens en páginas web para agentes de IA.