16 GPUs Escalan Investigación Automatizada de Karpathy: 2.87% Mejora

¿Qué es Autoresearch?

Autoresearch es el proyecto de Andrej Karpathy donde un agente de programación mejora autónomamente un script de entrenamiento de red neuronal. El agente edita train.py, ejecuta un experimento de entrenamiento de 5 minutos en una GPU, verifica la pérdida de validación y se repite, manteniendo los cambios que ayudan y descartando los que no. En la primera ejecución nocturna de Karpathy, el agente encontró ~20 mejoras que se acumularon en una reducción del 11% en el tiempo para GPT-2 en el ranking de nanochat.

Cómo funciona Autoresearch

El proyecto tiene tres archivos:

prepare.py - Descarga datos, entrena un tokenizador, proporciona el cargador de datos y la función de evaluación. Solo lectura. El agente no puede tocarlo.
train.py - El modelo GPT, el optimizador y el bucle de entrenamiento. Este es el único archivo que el agente modifica.
program.md - Instrucciones para el agente: qué puede cambiar, cómo evaluar resultados, cuándo mantener o descartar cambios.

La restricción es un presupuesto fijo de entrenamiento de 5 minutos de tiempo real. El trabajo del agente es minimizar val_bpb (bits por byte de validación) dentro de esa ventana. Todo en train.py está permitido: arquitectura, hiperparámetros, configuraciones del optimizador, tamaño del lote, profundidad del modelo, siempre que el código se ejecute sin fallar.

El cuello de botella: Una GPU, un experimento

Ejecutar experimentos secuencialmente significa que el agente pasa la mayor parte del tiempo esperando. Un ciclo típico se ve así:

El agente edita train.py (~30 segundos)
El entrenamiento se ejecuta (~5 minutos)
El agente lee el resultado, planifica el próximo experimento (~30 segundos)

El paso 2 domina. Durante el paso 2, el agente está inactivo; podría estar preparando el próximo experimento, o los próximos diez. Con ejecución secuencial, probar combinaciones de parámetros significa esperar otros 5 minutos por cada prueba.

Dándole al agente GPUs en la nube

El equipo usó SkyPilot, una herramienta de código abierto que lanza trabajos a través de nubes y Kubernetes desde un archivo YAML. Incluye una habilidad que enseña a los agentes de programación a usarla. El agente lee la habilidad, luego lanza y gestiona clústeres de GPU por sí mismo, sin configuración manual en la nube.

Cada experimento se define en un YAML corto (experiment.yaml) que especifica el tipo de GPU, instala dependencias, ejecuta train.py e imprime métricas en stdout. El agente verifica los resultados con sky logs.

Resultados: ~910 experimentos, ~8 horas, 16 GPUs

Claude Code usó la habilidad de SkyPilot para lanzar y gestionar experimentos de GPU en 16 GPUs. En 8 horas envió ~910 experimentos y redujo val_bpb de 1.003 a 0.974, una mejora del 2.87% sobre la línea base.

Cómo el paralelismo cambió la estrategia de investigación del agente

Con una GPU, el agente hace escalada codiciosa: prueba una cosa, verifica, repite. Con 16 GPUs, ejecutó cuadrículas factoriales de 10-13 experimentos por oleada, capturando efectos de interacción entre parámetros que la búsqueda secuencial habría pasado por alto.

Por ejemplo, el agente probó seis anchos de modelo en una sola oleada, vio la tendencia inmediatamente y se centró en el mejor, una ronda en lugar de seis.

El agente también descubrió que tenía acceso a múltiples tipos de GPU (H100s y H200s) y desarrolló una estrategia para explotar la diferencia de rendimiento en hardware heterogéneo: filtrar ideas en H100s más baratos, promover ganadores a H200 para validación.

Comparación de rendimiento

Con 16 GPUs, el agente paralelo alcanzó la misma mejor pérdida de validación 9 veces más rápido que la línea base secuencial simulada (~8 horas vs ~72 horas).

Fases del experimento

Fase 1: Barridos de hiperparámetros (~primeros 200 experimentos)
Fase 2: Descubrimiento de arquitectura (~experimentos 200-420)
Fase 3: Ajuste fino del modelo más ancho (~experimentos 420-560)
Fase 4: Ajuste del optimizador (~experimentos 560-700)
Fase 5: Rendimientos decrecientes (~experimentos 700-910)

El agente descubrió que escalar el ancho del modelo importaba más que cualquier hiperparámetro individual.

📖 Read the full source: HN AI Agents

Escalando la Investigación Automatizada de Karpathy con 16 GPUs: Resultados y Métodos

¿Qué es Autoresearch?

Cómo funciona Autoresearch

El cuello de botella: Una GPU, un experimento

Dándole al agente GPUs en la nube

Resultados: ~910 experimentos, ~8 horas, 16 GPUs

Cómo el paralelismo cambió la estrategia de investigación del agente

Comparación de rendimiento

Fases del experimento

👀 Ver también

GLM-5.1 vs MiniMax M2.7: Comparación de rendimiento para agentes de codificación con IA

Función de Memoria de Sesión Introducida en Claude Code

AlterSpec v1.0: Aplicación de Políticas en Tiempo de Ejecución para Agentes de IA

Claw Code Agent: Reimplementación en Python de la Arquitectura Claude Code para Modelos Locales