Agentic GRPO: Primeiro IA a Superar Todos os Humanos em uma Competição de Programação

✍️ OpenClawRadar📅 Publicado: May 24, 2026🔗 Source
Agentic GRPO: Primeiro IA a Superar Todos os Humanos em uma Competição de Programação
Ad

Uma equipe desenvolveu o Agentic GRPO, um algoritmo de aprendizado por reforço que permitiu a um sistema de IA vencer consistentemente todos os participantes humanos em competições de programação ao vivo — a primeira IA a alcançar isso. O melhor anterior, Google Gemini 3 Deep Think, ficou apenas em 8º lugar.

Por que o RL Padrão Falha para Agentes de Codificação

O RL tradicional para LLMs trata uma resposta como uma trajetória: prompt → raciocínio → resposta final → recompensa. Mas sistemas agentivos chamam ferramentas, geram hipóteses, executam testes, depuram código, resumem contexto, revisam planos e fazem loops muitas vezes antes do sucesso. Isso cria problemas difíceis: recompensas chegam muito tarde, trajetórias são muito longas e a política muda enquanto as execuções ainda estão rodando (deriva fora da política). O Agentic GRPO estabiliza o aprendizado neste cenário.

O que é GRPO?

GRPO significa Otimização Relativa de Política em Grupo (Group Relative Policy Optimization). Similar ao PPO, ele amostra múltiplas saídas, compara-as entre si, recompensa as relativamente melhores e atualiza o modelo em direção a trajetórias melhores. Em vez de exigir calibração perfeita de recompensa escalar, utiliza ranqueamento/normalização relativa dentro de um grupo de amostras.

Ad

Intuição Central do Agentic GRPO

Para um agente de codificação de IA resolvendo um problema de programação difícil, o fluxo de trabalho pode ser: propor hipótese → gerar algoritmo → escrever código → gerar testes → executar testes → depurar falhas → tentar novamente → finalmente passar. No RL padrão, o modelo pode receber recompensa apenas no final, tornando o treinamento lento e instável.

O Agentic GRPO introduz:

  • Recompensas imediatas — atualiza assim que feedback intermediário aparece
  • Correção tardia — corrige retroativamente atualizações anteriores quando o resultado final é conhecido

Assim, em vez de esperar até que toda a execução termine (estágio1 → estágio2 → estágio3 → recompensa final), o sistema faz: recompensa estágio1 → atualiza agora; recompensa estágio2 → atualiza agora; recompensa estágio3 → atualiza agora; depois: recompensa final chega, corrige retroativamente atualizações anteriores.

Analogia

RL tradicional: esperar até que todo o projeto seja entregue, então dizer "bom trabalho" ou "mau trabalho". Agentic GRPO: dar feedback contínuo ("essa hipótese foi útil", "esse teste pegou um bug", "essa otimização ajudou") mas depois revisar a avaliação ("na verdade, a decisão inicial de design causou problemas"). O aprendizado se torna mais rápido, denso e estável.

Isso resolve o RL especificamente para agentes LLM de longo horizonte, agentes de codificação e fluxos de trabalho autônomos.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Análise do Goldman Sachs Mostra Impacto Mínimo da IA no Crescimento do PIB dos EUA em 2025
News

Análise do Goldman Sachs Mostra Impacto Mínimo da IA no Crescimento do PIB dos EUA em 2025

Economistas do Goldman Sachs relatam que o investimento em IA contribuiu com 'basicamente zero' para o crescimento do PIB dos EUA em 2025, citando hardware importado e impactos de produtividade não medidos como fatores-chave.

OpenClawRadar
Claude Code v2.1.122 Adiciona Nível de Serviço Bedrock, Corrige Descoberta de Ferramentas MCP e Modo Bash
News

Claude Code v2.1.122 Adiciona Nível de Serviço Bedrock, Corrige Descoberta de Ferramentas MCP e Modo Bash

A CLI Claude Code v2.1.122 da Anthropic introduz seleção de nível de serviço Bedrock via variável de ambiente, corrige a descoberta de ferramentas MCP no modo não bloqueante, resolve o comportamento de saída do modo bash e corrige vários problemas de integração com Vertex AI / Bedrock.

OpenClawRadar
Desenvolvedores do Vale do Silício relatam padrões intensos de uso da IA Claude e tensão na infraestrutura
News

Desenvolvedores do Vale do Silício relatam padrões intensos de uso da IA Claude e tensão na infraestrutura

Um engenheiro sênior de IA na Meta gasta US$ 2.000/mês em tokens do Claude Code, executa mais de 2 agentes simultaneamente e criou uma extensão do VS Code que gera automaticamente um grafo de conhecimento no Obsidian a partir de conversas com o Claude. A infraestrutura estaria 'completamente destruída' devido ao envio de código gerado pelo Claude sem revisão.

OpenClawRadar
Relato de Interrupção Parcial do Claude Code na Web
News

Relato de Interrupção Parcial do Claude Code na Web

Uma atualização automática de status do r/ClaudeAI relata uma interrupção parcial no Claude Code na web a partir de 2026-05-09T23:33:21.000Z. Consulte a página de status oficial e o megathread da comunidade para atualizações.

OpenClawRadar