Agentic GRPO: primera IA que supera a todos los humanos en programación

Un equipo ha desarrollado Agentic GRPO, un algoritmo de aprendizaje por refuerzo que permitió a un sistema de IA superar consistentemente a todos los participantes humanos en concursos de programación competitiva en vivo, siendo la primera IA en lograrlo. El mejor anterior, Gemini 3 Deep Think de Google, solo alcanzó el octavo lugar.

Por qué el RL estándar falla para agentes de codificación

El RL tradicional para LLMs trata una respuesta como una trayectoria: prompt → razonamiento → respuesta final → recompensa. Pero los sistemas agentivos llaman herramientas, generan hipótesis, ejecutan pruebas, depuran código, resumen contexto, revisan planes y repiten muchas veces antes de tener éxito. Esto crea problemas difíciles: las recompensas llegan muy tarde, las trayectorias son muy largas y la política cambia mientras los rollouts aún se ejecutan (derivación fuera de política). Agentic GRPO estabiliza el aprendizaje en este entorno.

¿Qué es GRPO?

GRPO significa Group Relative Policy Optimization. Similar a PPO, muestrea múltiples salidas, las compara entre sí, recompensa las relativamente mejores y actualiza el modelo hacia mejores trayectorias. En lugar de requerir una calificación escalar perfecta, utiliza ranking/normalización relativa dentro de un grupo de muestras.

Intuición central de Agentic GRPO

Para un agente de codificación de IA resolviendo un problema de programación difícil, el flujo de trabajo podría ser: proponer hipótesis → generar algoritmo → escribir código → generar pruebas → ejecutar pruebas → depurar fallos → reintentar → finalmente pasar. En RL estándar, el modelo solo obtendría recompensa al final, haciendo el entrenamiento lento e inestable.

Agentic GRPO introduce:

Recompensas inmediatas — actualizar tan pronto como aparezca retroalimentación intermedia
Corrección retardada — arreglar retroactivamente actualizaciones anteriores una vez conocido el resultado final

Así, en lugar de esperar hasta que todo el rollout termine (etapa1 → etapa2 → etapa3 → recompensa final), el sistema hace: recompensa etapa1 → actualizar ahora; recompensa etapa2 → actualizar ahora; recompensa etapa3 → actualizar ahora; luego: llega recompensa final, corregir retroactivamente actualizaciones anteriores.

Analogía

RL tradicional: esperar hasta que todo el proyecto se entregue, luego decir "buen trabajo" o "mal trabajo". Agentic GRPO: dar retroalimentación continua ("esa hipótesis fue útil", "esa prueba detectó un error", "esta optimización ayudó") pero después revisar la evaluación ("en realidad, la decisión de diseño temprana causó problemas"). El aprendizaje se vuelve más rápido, denso y estable.

Esto resuelve RL específicamente para agentes LLM de horizonte largo, agentes de codificación y flujos de trabajo autónomos.

📖 Read the full source: r/LocalLLaMA

GRPO Agente: Primera IA en vencer a todos los humanos en una competencia de programación

Por qué el RL estándar falla para agentes de codificación

¿Qué es GRPO?

Intuición central de Agentic GRPO

Analogía

👀 Ver también

Claude Code v2.1.89 agrega ganchos diferibles, reintento de permisos y corrige fugas de memoria.

Análisis de 2,181 Puntos Finales de Servidores MCP Remotos Revela Problemas de Confiabilidad

La Startup de IA de Yann LeCun Recauda $1,000 Millones en la Mayor Ronda Semilla de Europa.

Claude-Code v2.1.30 lanzado con mejoras en PDF y OAuth.