Agentic GRPO: 프로그래밍에서 모든 인간을 이긴 최초의 AI

한 팀이 Agentic GRPO라는 강화학습 알고리즘을 개발하여 AI 시스템이 라이브 경쟁 프로그래밍 대회에서 모든 인간 참가자를 일관되게 이길 수 있게 했습니다. 이는 최초로 달성한 기록입니다. 이전 최고였던 Google의 Gemini 3 Deep Think는 8위에 그쳤습니다.

표준 RL이 코딩 에이전트에 실패하는 이유

LLM을 위한 전통적인 RL은 하나의 답변을 하나의 궤적으로 취급합니다: 프롬프트 → 추론 → 최종 답변 → 보상. 그러나 에이전트 시스템은 도구를 호출하고, 가설을 생성하고, 테스트를 실행하고, 코드를 디버깅하고, 컨텍스트를 요약하고, 계획을 수정하며, 성공하기 전에 여러 번 반복합니다. 이로 인해 어려운 문제가 발생합니다: 보상이 매우 늦게 도착하고, 궤적이 매우 길며, 롤아웃이 실행되는 동안 정책이 변경됩니다(오프폴리시 드리프트). Agentic GRPO는 이 환경에서 학습을 안정화합니다.

GRPO란 무엇인가?

GRPO는 Group Relative Policy Optimization의 약자입니다. PPO와 유사하게 여러 출력을 샘플링하고 서로 비교하여 상대적으로 더 나은 것에 보상을 주고, 더 나은 궤적 쪽으로 모델을 업데이트합니다. 완벽한 스칼라 보상 보정 대신, 샘플 그룹 내에서 상대적 순위/정규화를 사용합니다.

Agentic GRPO의 핵심 직관

어려운 프로그래밍 문제를 해결하는 AI 코딩 에이전트의 워크플로는 다음과 같습니다: 가설 제안 → 알고리즘 생성 → 코드 작성 → 테스트 생성 → 테스트 실행 → 실패 디버깅 → 재시도 → 마지막으로 통과. 표준 RL에서는 모델이 맨 마지막에만 보상을 받을 수 있어 훈련이 느리고 불안정합니다.

Agentic GRPO는 다음을 도입합니다:

즉시 보상 — 중간 피드백이 나타나는 즉시 업데이트
지연 보정 — 최종 결과가 알려진 후에 이전 업데이트를 사후 수정

따라서 전체 롤아웃이 끝날 때까지 기다리는 대신(단계1 → 단계2 → 단계3 → 최종 보상), 시스템은 다음과 같이 작동합니다: 단계1 보상 → 지금 업데이트; 단계2 보상 → 지금 업데이트; 단계3 보상 → 지금 업데이트; 나중에: 최종 보상 도착, 이전 업데이트 사후 수정.

비유

전통적인 RL: 전체 프로젝트가 출시될 때까지 기다린 다음 "잘했어" 또는 "잘못했어"라고 말합니다. Agentic GRPO: 지속적으로 피드백을 제공합니다("그 가설은 유용했어", "그 테스트가 버그를 잡았어", "이 최적화가 도움이 됐어") 그러나 나중에 평가를 수정합니다("사실 초기 설계 결정이 문제를 일으켰어"). 학습이 더 빠르고, 밀도 높고, 안정적이 됩니다.

이것은 장기적 LLM 에이전트, 코딩 에이전트 및 자율 워크플로를 위해 RL을 해결합니다.

📖 전체 출처 읽기: r/LocalLLaMA