Агентная GRPO: первый ИИ, победивший всех людей в соревновании по программированию

✍️ OpenClawRadar📅 Опубликовано: 24 мая 2026 г.🔗 Source

Команда разработала Agentic GRPO – алгоритм обучения с подкреплением, который позволил системе ИИ последовательно побеждать всех людей-участников в живых соревнованиях по программированию — первый ИИ, достигший этого. Предыдущий лучший результат, Google Gemini 3 Deep Think, занял лишь 8-е место.

Почему стандартное RL не подходит для агентов-программистов

Традиционное RL для LLM рассматривает один ответ как одну траекторию: запрос → рассуждение → окончательный ответ → награда. Но агентные системы используют инструменты, генерируют гипотезы, запускают тесты, отлаживают код, обобщают контекст, пересматривают планы и многократно циклически повторяют действия до успеха. Это создает сложные проблемы: награды поступают очень поздно, траектории очень длинные, а политика изменяется, пока сбор данных еще идет (смещение off-policy). Agentic GRPO стабилизирует обучение в такой среде.

Что такое GRPO?

GRPO расшифровывается как Group Relative Policy Optimization. Аналогично PPO, он генерирует несколько вариантов ответов, сравнивает их между собой, вознаграждает относительно лучшие и обновляет модель в сторону лучших траекторий. Вместо требования идеальной калибровки скалярных наград он использует относительное ранжирование/нормализацию внутри группы сэмплов.

Основная идея Agentic GRPO

Для агента ИИ, решающего сложную задачу программирования, рабочий процесс может выглядеть так: выдвинуть гипотезу → создать алгоритм → написать код → сгенерировать тесты → запустить тесты → исправить ошибки → повторить попытку → наконец пройти. В стандартном RL модель могла бы получить награду только в самом конце, что делает обучение медленным и нестабильным.

Agentic GRPO вводит:

Немедленные награды — обновление происходит, как только появляется промежуточная обратная связь
Отложенную коррекцию — ретроспективное исправление предыдущих обновлений после получения окончательного результата

Поэтому вместо ожидания завершения всей траектории (этап1 → этап2 → этап3 → финальная награда), система делает: награда за этап1 → обновление сейчас; награда за этап2 → обновление сейчас; награда за этап3 → обновление сейчас; позже: финальная награда приходит, ретроспективно исправляем предыдущие обновления.

Аналогия

Традиционное RL: ждите, пока весь проект не будет сдан, а затем скажите «хорошая работа» или «плохая работа». Agentic GRPO: давайте обратную связь непрерывно («эта гипотеза была полезной», «этот тест поймал баг», «эта оптимизация помогла»), но позже пересматривайте оценку («на самом деле раннее проектное решение вызвало проблемы»). Обучение становится быстрее, плотнее и стабильнее.

Это решает задачи RL для долгосрочных LLM-агентов, агентов-программистов и автономных рабочих процессов.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Новости

Простой метод самодистилляции улучшает генерацию кода в больших языковых моделях.

Исследователи показали, что дообучение больших языковых моделей на их собственных сгенерированных ответах (простая самодистилляция) улучшает качество генерации кода, повышая показатель Qwen3-30B-Instruct с 42,4% до 55,3% pass@1 на LiveCodeBench v6.

14 апр. 2026 г., 11:07 UTC

OpenClawRadar

Новости

Решение Окружного суда Южного округа Нью-Йорка (SDNY) отказывает в защите переписки с ИИ-чатом адвокатской тайной.

Судья Раковф постановил в деле США против Хеппнера, что общение с ИИ-инструментами, такими как ChatGPT, не подпадает под адвокатскую тайну, требуя раскрытия всей юридической работы, созданной ИИ. Суд установил, что ИИ не обладает необходимой человеческой конфиденциальностью для защиты привилегий.

17 апр. 2026 г., 22:45 UTC

OpenClawRadar

Новости

Ошибка подписки Claude Pro: платные пользователи застряли на бесплатном тарифе

Ошибка в Claude Pro после использования подарочного пропуска оставляет аккаунты на бесплатном плане, несмотря на успешную оплату и получение чеков. Поддержка Anthropic не отвечает в течение недели.

5 мая 2026 г., 12:16 UTC

OpenClawRadar

Новости

Сертифицированный архитектор Claude Foundations (CCA-F) Экзамен: Результат 985/1000 — Руководство по подготовке и тренировочный тест

Пользователь Reddit делится опытом сдачи экзамена Claude Certified Architect Foundations (CCA-F) на 985/1000 баллов. Включает практические советы по инжинирингу промптов, управлению контекстными окнами и рабочим процессам с участием человека, а также ссылки на учебные курсы, кулинарную книгу и бесплатный пробный экзамен.

7 июл. 2026 г., 12:20 UTC

OpenClawRadar