Escalando la Investigación Automatizada de Karpathy con 16 GPUs: Resultados y Métodos

✍️ OpenClawRadar📅 Publicado: 19 de marzo de 2026🔗 Source
Escalando la Investigación Automatizada de Karpathy con 16 GPUs: Resultados y Métodos
Ad

¿Qué es Autoresearch?

Autoresearch es el proyecto de Andrej Karpathy donde un agente de programación mejora autónomamente un script de entrenamiento de red neuronal. El agente edita train.py, ejecuta un experimento de entrenamiento de 5 minutos en una GPU, verifica la pérdida de validación y se repite, manteniendo los cambios que ayudan y descartando los que no. En la primera ejecución nocturna de Karpathy, el agente encontró ~20 mejoras que se acumularon en una reducción del 11% en el tiempo para GPT-2 en el ranking de nanochat.

Cómo funciona Autoresearch

El proyecto tiene tres archivos:

  • prepare.py - Descarga datos, entrena un tokenizador, proporciona el cargador de datos y la función de evaluación. Solo lectura. El agente no puede tocarlo.
  • train.py - El modelo GPT, el optimizador y el bucle de entrenamiento. Este es el único archivo que el agente modifica.
  • program.md - Instrucciones para el agente: qué puede cambiar, cómo evaluar resultados, cuándo mantener o descartar cambios.

La restricción es un presupuesto fijo de entrenamiento de 5 minutos de tiempo real. El trabajo del agente es minimizar val_bpb (bits por byte de validación) dentro de esa ventana. Todo en train.py está permitido: arquitectura, hiperparámetros, configuraciones del optimizador, tamaño del lote, profundidad del modelo, siempre que el código se ejecute sin fallar.

El cuello de botella: Una GPU, un experimento

Ejecutar experimentos secuencialmente significa que el agente pasa la mayor parte del tiempo esperando. Un ciclo típico se ve así:

  1. El agente edita train.py (~30 segundos)
  2. El entrenamiento se ejecuta (~5 minutos)
  3. El agente lee el resultado, planifica el próximo experimento (~30 segundos)

El paso 2 domina. Durante el paso 2, el agente está inactivo; podría estar preparando el próximo experimento, o los próximos diez. Con ejecución secuencial, probar combinaciones de parámetros significa esperar otros 5 minutos por cada prueba.

Ad

Dándole al agente GPUs en la nube

El equipo usó SkyPilot, una herramienta de código abierto que lanza trabajos a través de nubes y Kubernetes desde un archivo YAML. Incluye una habilidad que enseña a los agentes de programación a usarla. El agente lee la habilidad, luego lanza y gestiona clústeres de GPU por sí mismo, sin configuración manual en la nube.

Cada experimento se define en un YAML corto (experiment.yaml) que especifica el tipo de GPU, instala dependencias, ejecuta train.py e imprime métricas en stdout. El agente verifica los resultados con sky logs.

Resultados: ~910 experimentos, ~8 horas, 16 GPUs

Claude Code usó la habilidad de SkyPilot para lanzar y gestionar experimentos de GPU en 16 GPUs. En 8 horas envió ~910 experimentos y redujo val_bpb de 1.003 a 0.974, una mejora del 2.87% sobre la línea base.

Cómo el paralelismo cambió la estrategia de investigación del agente

Con una GPU, el agente hace escalada codiciosa: prueba una cosa, verifica, repite. Con 16 GPUs, ejecutó cuadrículas factoriales de 10-13 experimentos por oleada, capturando efectos de interacción entre parámetros que la búsqueda secuencial habría pasado por alto.

Por ejemplo, el agente probó seis anchos de modelo en una sola oleada, vio la tendencia inmediatamente y se centró en el mejor, una ronda en lugar de seis.

El agente también descubrió que tenía acceso a múltiples tipos de GPU (H100s y H200s) y desarrolló una estrategia para explotar la diferencia de rendimiento en hardware heterogéneo: filtrar ideas en H100s más baratos, promover ganadores a H200 para validación.

Comparación de rendimiento

Con 16 GPUs, el agente paralelo alcanzó la misma mejor pérdida de validación 9 veces más rápido que la línea base secuencial simulada (~8 horas vs ~72 horas).

Fases del experimento

  • Fase 1: Barridos de hiperparámetros (~primeros 200 experimentos)
  • Fase 2: Descubrimiento de arquitectura (~experimentos 200-420)
  • Fase 3: Ajuste fino del modelo más ancho (~experimentos 420-560)
  • Fase 4: Ajuste del optimizador (~experimentos 560-700)
  • Fase 5: Rendimientos decrecientes (~experimentos 700-910)

El agente descubrió que escalar el ancho del modelo importaba más que cualquier hiperparámetro individual.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

GLM-5.1 vs MiniMax M2.7: Comparación de rendimiento para agentes de codificación con IA
Herramientas

GLM-5.1 vs MiniMax M2.7: Comparación de rendimiento para agentes de codificación con IA

GLM-5.1 alcanza puntuaciones de 77.8 en SWE-bench-Verified y 56.2 en Terminal Bench 2.0, las más altas entre los modelos de código abierto, mientras que MiniMax M2.7 ofrece respuestas rápidas con bajo TTFT y alto rendimiento, ideal para bots de CI y ediciones por lotes.

OpenClawRadar
Función de Memoria de Sesión Introducida en Claude Code
Herramientas

Función de Memoria de Sesión Introducida en Claude Code

Claude Code ahora incluye una función de 'Memoria de Sesión', generando y manteniendo resúmenes de sesión en archivos summary.md. Desbloquéala con tweakcc para sesiones interactivas que superen umbrales específicos de tokens y llamadas a herramientas.

OpenClawRadar
AlterSpec v1.0: Aplicación de Políticas en Tiempo de Ejecución para Agentes de IA
Herramientas

AlterSpec v1.0: Aplicación de Políticas en Tiempo de Ejecución para Agentes de IA

AlterSpec v1.0 es un motor de ejecución de cumplimiento de políticas de código abierto que se sitúa entre los agentes de IA y sus herramientas, evaluando las acciones frente a políticas definidas en YAML antes de su ejecución. Proporciona decisiones de permitir/denegar/revisar, firma criptográfica de políticas y registro de auditoría.

OpenClawRadar
Claw Code Agent: Reimplementación en Python de la Arquitectura Claude Code para Modelos Locales
Herramientas

Claw Code Agent: Reimplementación en Python de la Arquitectura Claude Code para Modelos Locales

Claw Code Agent es una reimplementación en Python de la arquitectura del agente Claude Code que funciona con modelos de código abierto locales a través de backends compatibles con OpenAI como vLLM y Ollama, incluyendo llamadas a herramientas, comandos de barra y permisos escalonados.

OpenClawRadar