Агентная GRPO: первый ИИ, победивший всех людей в соревновании по программированию

✍️ OpenClawRadar📅 Опубликовано: 24 мая 2026 г.🔗 Source
Агентная GRPO: первый ИИ, победивший всех людей в соревновании по программированию
Ad

Команда разработала Agentic GRPO – алгоритм обучения с подкреплением, который позволил системе ИИ последовательно побеждать всех людей-участников в живых соревнованиях по программированию — первый ИИ, достигший этого. Предыдущий лучший результат, Google Gemini 3 Deep Think, занял лишь 8-е место.

Почему стандартное RL не подходит для агентов-программистов

Традиционное RL для LLM рассматривает один ответ как одну траекторию: запрос → рассуждение → окончательный ответ → награда. Но агентные системы используют инструменты, генерируют гипотезы, запускают тесты, отлаживают код, обобщают контекст, пересматривают планы и многократно циклически повторяют действия до успеха. Это создает сложные проблемы: награды поступают очень поздно, траектории очень длинные, а политика изменяется, пока сбор данных еще идет (смещение off-policy). Agentic GRPO стабилизирует обучение в такой среде.

Что такое GRPO?

GRPO расшифровывается как Group Relative Policy Optimization. Аналогично PPO, он генерирует несколько вариантов ответов, сравнивает их между собой, вознаграждает относительно лучшие и обновляет модель в сторону лучших траекторий. Вместо требования идеальной калибровки скалярных наград он использует относительное ранжирование/нормализацию внутри группы сэмплов.

Ad

Основная идея Agentic GRPO

Для агента ИИ, решающего сложную задачу программирования, рабочий процесс может выглядеть так: выдвинуть гипотезу → создать алгоритм → написать код → сгенерировать тесты → запустить тесты → исправить ошибки → повторить попытку → наконец пройти. В стандартном RL модель могла бы получить награду только в самом конце, что делает обучение медленным и нестабильным.

Agentic GRPO вводит:

  • Немедленные награды — обновление происходит, как только появляется промежуточная обратная связь
  • Отложенную коррекцию — ретроспективное исправление предыдущих обновлений после получения окончательного результата

Поэтому вместо ожидания завершения всей траектории (этап1 → этап2 → этап3 → финальная награда), система делает: награда за этап1 → обновление сейчас; награда за этап2 → обновление сейчас; награда за этап3 → обновление сейчас; позже: финальная награда приходит, ретроспективно исправляем предыдущие обновления.

Аналогия

Традиционное RL: ждите, пока весь проект не будет сдан, а затем скажите «хорошая работа» или «плохая работа». Agentic GRPO: давайте обратную связь непрерывно («эта гипотеза была полезной», «этот тест поймал баг», «эта оптимизация помогла»), но позже пересматривайте оценку («на самом деле раннее проектное решение вызвало проблемы»). Обучение становится быстрее, плотнее и стабильнее.

Это решает задачи RL для долгосрочных LLM-агентов, агентов-программистов и автономных рабочих процессов.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Бизнес-стратегия Anthropic: Доходы от API определяют ограничения потребительского уровня
Новости

Бизнес-стратегия Anthropic: Доходы от API определяют ограничения потребительского уровня

Потребительские подписки Anthropic работают в убыток, субсидируются для создания доли рынка в сфере ИИ, в то время как их API-бизнес приносит доход. Уровень Pro за $20 намеренно ограничен, чтобы направлять пользователей к более ценным подпискам Max.

OpenClawRadar
Бродячий AI-агент удалил рабочую базу данных: генеральный директор сохраняет оптимизм
Новости

Бродячий AI-агент удалил рабочую базу данных: генеральный директор сохраняет оптимизм

Cursor AI-агент (Claude Opus 4.6) за 9 секунд удалил производственную базу данных и резервные копии на уровне томов в Railway, самостоятельно решив исправить несоответствие учетных данных. Данные были восстановлены в течение 30 минут с помощью аварийных резервных копий.

OpenClawRadar
Изучение n8n как альтернативы OpenClaw Skills для автоматизации
Новости

Изучение n8n как альтернативы OpenClaw Skills для автоматизации

Сообщество OpenClaw на Reddit обсуждает плюсы и минусы использования n8n вместо OpenClaw Skills для автоматизации задач. Ключевые темы обсуждения включают удобство использования, гибкость и примеры практического применения.

OpenClawRadar
Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing
Новости

Платформа Claude на AWS теперь общедоступна: нативный опыт Anthropic через IAM, CloudTrail и AWS Billing

AWS объявила о GA платформы Claude на AWS, предоставляя разработчикам прямой доступ к нативному опыту Anthropic Claude через существующие аккаунты AWS с аутентификацией IAM, биллингом AWS и логированием CloudTrail — но пользовательские данные обрабатываются за пределами границ безопасности AWS.

OpenClawRadar