Agentic GRPO: Primeira IA a Vencer Todos os Humanos em Programação

Uma equipe desenvolveu o Agentic GRPO, um algoritmo de aprendizado por reforço que permitiu a um sistema de IA vencer consistentemente todos os participantes humanos em competições de programação ao vivo — a primeira IA a alcançar isso. O melhor anterior, Google Gemini 3 Deep Think, ficou apenas em 8º lugar.

Por que o RL Padrão Falha para Agentes de Codificação

O RL tradicional para LLMs trata uma resposta como uma trajetória: prompt → raciocínio → resposta final → recompensa. Mas sistemas agentivos chamam ferramentas, geram hipóteses, executam testes, depuram código, resumem contexto, revisam planos e fazem loops muitas vezes antes do sucesso. Isso cria problemas difíceis: recompensas chegam muito tarde, trajetórias são muito longas e a política muda enquanto as execuções ainda estão rodando (deriva fora da política). O Agentic GRPO estabiliza o aprendizado neste cenário.

O que é GRPO?

GRPO significa Otimização Relativa de Política em Grupo (Group Relative Policy Optimization). Similar ao PPO, ele amostra múltiplas saídas, compara-as entre si, recompensa as relativamente melhores e atualiza o modelo em direção a trajetórias melhores. Em vez de exigir calibração perfeita de recompensa escalar, utiliza ranqueamento/normalização relativa dentro de um grupo de amostras.

Intuição Central do Agentic GRPO

Para um agente de codificação de IA resolvendo um problema de programação difícil, o fluxo de trabalho pode ser: propor hipótese → gerar algoritmo → escrever código → gerar testes → executar testes → depurar falhas → tentar novamente → finalmente passar. No RL padrão, o modelo pode receber recompensa apenas no final, tornando o treinamento lento e instável.

O Agentic GRPO introduz:

Recompensas imediatas — atualiza assim que feedback intermediário aparece
Correção tardia — corrige retroativamente atualizações anteriores quando o resultado final é conhecido

Assim, em vez de esperar até que toda a execução termine (estágio1 → estágio2 → estágio3 → recompensa final), o sistema faz: recompensa estágio1 → atualiza agora; recompensa estágio2 → atualiza agora; recompensa estágio3 → atualiza agora; depois: recompensa final chega, corrige retroativamente atualizações anteriores.

Analogia

RL tradicional: esperar até que todo o projeto seja entregue, então dizer "bom trabalho" ou "mau trabalho". Agentic GRPO: dar feedback contínuo ("essa hipótese foi útil", "esse teste pegou um bug", "essa otimização ajudou") mas depois revisar a avaliação ("na verdade, a decisão inicial de design causou problemas"). O aprendizado se torna mais rápido, denso e estável.

Isso resolve o RL especificamente para agentes LLM de longo horizonte, agentes de codificação e fluxos de trabalho autônomos.

📖 Leia a fonte completa: r/LocalLLaMA