Nanocode: Entrenamiento de agentes de codificación similares a Claude con JAX en TPUs

Nanocode es una biblioteca que demuestra cómo entrenar tu propio modelo Claude Code de extremo a extremo usando Constitutional AI, siguiendo el enfoque de Anthropic. Escrito completamente en JAX y optimizado para TPUs, adapta la infraestructura del proyecto nanochat de Karpathy.
Configuración y Costos de Entrenamiento
El modelo nanocode-d24 (1.3B parámetros) puede reproducirse en aproximadamente 9 horas en una TPU v6e-8 a un costo de $200. El modelo más pequeño nanocode-d20 (477M parámetros) se entrena en aproximadamente 1.5 horas por $34. El proyecto recomienda usar el programa TRC de Google para acceso gratuito a TPUs preemptibles por un mes, o los créditos de $300 de Google Cloud para cuentas nuevas.
Implementación Técnica
El proceso de entrenamiento incluye:
- Escribir un archivo SOUL.md para definir la alineación del modelo
- Definir una interfaz agéntica para interacción con el mundo
- Generar datos sintéticos
- Usar optimización de preferencias para alinear el modelo con SOUL
Diferencias en Tokenización y Pre-entrenamiento
Aunque el proceso de pre-entrenamiento y entrenamiento del tokenizador es similar a nanochat, nanocode incluye datos adicionales de codificación de The Stack-V2 en una proporción 1:5 tanto en las mezclas de pre-entrenamiento como del tokenizador. Esto resulta en un mejor rendimiento de codificación pero reduce la eficiencia de tokenización de texto general.
La comparación de tokenizadores muestra que nanocode logra un -50.9% mejor tokenización para código en comparación con nanochat, mientras que nanochat funciona mejor con texto coreano (+7.9% para nanocode en noticias, -27.6% en coreano).
Comandos y Configuración
export NANOCODE_BASE_DIR="$HOME/.cache/nanocode"
export MODEL_TAG=d24
python -m data.pretrain -d fineweb-edu -n 300
python -m data.pretrain -d the-stack-v2-dedup -n 60
python -m scripts.tok_train --max-chars=2000000000
python -m scripts.tok_eval
Los modelos se entrenan con una proporción parámetro:datos de 8, siguiendo el análisis de leyes de escala de nanochat. Aunque optimizado para TPUs, nanocode también debería funcionar en GPUs NVIDIA sin modificaciones.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también
Impuesto de habilidades de Claude Code: 2,596 habilidades instaladas, 40 usadas, $91/mes desperdiciados
Cada habilidad instalada de Claude Code se carga en el prompt del sistema de cada sesión. Un usuario midió 102,651 tokens cargados por sesión, de los cuales el 98.6% nunca se usaron, con un costo de ~$91/mes. Una herramienta de código abierto, skill-tax, audita el uso y los costos.

Modo Cowork de Claude explicado: ejecución de tareas a nivel de archivo frente a modos de chat y código.
El modo Cowork de Claude opera dentro de una carpeta elegida para realizar tareas a nivel de archivo, como organizar carpetas desordenadas, extraer datos estructurados de capturas de pantalla y combinar notas dispersas en documentos estructurados.

La extensión Super Claude para navegador rastrea la velocidad de uso de Claude AI y predice los límites.
Un desarrollador creó una extensión de navegador llamada Super Claude que añade indicadores de velocidad de uso y predicciones de tiempo al 100% directamente en la interfaz de Claude, ayudando a los usuarios a monitorear el consumo de su asignación de 5 horas.

SkyClaw: Un Entorno de Ejecución de Agentes Abierto Escrito en Rust
SkyClaw es un runtime de agente de código abierto escrito en Rust con 34 nuevas características distribuidas en 7 fases de desarrollo. Incluye checkpointing de tareas, colas persistentes respaldadas por SQLite, ejecución paralela de herramientas y soporte para multi-tenencia.