에이전트 GRPO: 프로그래밍 대회에서 모든 인간을 이긴 첫 AI

한 팀이 Agentic GRPO라는 강화학습 알고리즘을 개발하여 AI 시스템이 라이브 경쟁 프로그래밍 대회에서 모든 인간 참가자를 일관되게 이길 수 있게 했습니다. 이는 최초로 달성한 기록입니다. 이전 최고였던 Google의 Gemini 3 Deep Think는 8위에 그쳤습니다.
표준 RL이 코딩 에이전트에 실패하는 이유
LLM을 위한 전통적인 RL은 하나의 답변을 하나의 궤적으로 취급합니다: 프롬프트 → 추론 → 최종 답변 → 보상. 그러나 에이전트 시스템은 도구를 호출하고, 가설을 생성하고, 테스트를 실행하고, 코드를 디버깅하고, 컨텍스트를 요약하고, 계획을 수정하며, 성공하기 전에 여러 번 반복합니다. 이로 인해 어려운 문제가 발생합니다: 보상이 매우 늦게 도착하고, 궤적이 매우 길며, 롤아웃이 실행되는 동안 정책이 변경됩니다(오프폴리시 드리프트). Agentic GRPO는 이 환경에서 학습을 안정화합니다.
GRPO란 무엇인가?
GRPO는 Group Relative Policy Optimization의 약자입니다. PPO와 유사하게 여러 출력을 샘플링하고 서로 비교하여 상대적으로 더 나은 것에 보상을 주고, 더 나은 궤적 쪽으로 모델을 업데이트합니다. 완벽한 스칼라 보상 보정 대신, 샘플 그룹 내에서 상대적 순위/정규화를 사용합니다.
Agentic GRPO의 핵심 직관
어려운 프로그래밍 문제를 해결하는 AI 코딩 에이전트의 워크플로는 다음과 같습니다: 가설 제안 → 알고리즘 생성 → 코드 작성 → 테스트 생성 → 테스트 실행 → 실패 디버깅 → 재시도 → 마지막으로 통과. 표준 RL에서는 모델이 맨 마지막에만 보상을 받을 수 있어 훈련이 느리고 불안정합니다.
Agentic GRPO는 다음을 도입합니다:
- 즉시 보상 — 중간 피드백이 나타나는 즉시 업데이트
- 지연 보정 — 최종 결과가 알려진 후에 이전 업데이트를 사후 수정
따라서 전체 롤아웃이 끝날 때까지 기다리는 대신(단계1 → 단계2 → 단계3 → 최종 보상), 시스템은 다음과 같이 작동합니다: 단계1 보상 → 지금 업데이트; 단계2 보상 → 지금 업데이트; 단계3 보상 → 지금 업데이트; 나중에: 최종 보상 도착, 이전 업데이트 사후 수정.
비유
전통적인 RL: 전체 프로젝트가 출시될 때까지 기다린 다음 "잘했어" 또는 "잘못했어"라고 말합니다. Agentic GRPO: 지속적으로 피드백을 제공합니다("그 가설은 유용했어", "그 테스트가 버그를 잡았어", "이 최적화가 도움이 됐어") 그러나 나중에 평가를 수정합니다("사실 초기 설계 결정이 문제를 일으켰어"). 학습이 더 빠르고, 밀도 높고, 안정적이 됩니다.
이것은 장기적 LLM 에이전트, 코딩 에이전트 및 자율 워크플로를 위해 RL을 해결합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

AI 인프라의 숨겨진 금융 거품 – 주요 시사점
AI 인프라 지출 붐에 대한 비판적 분석으로, 과거 기술 붕괴와 유사한 지속 불가능한 버블을 경고합니다. 이 PDF는 GPU와 데이터 센터에 대한 막대한 자본 지출이 실제 수익 창출을 훨씬 초과한다고 주장합니다.

4개월 만에 $950 MRR 달성, 클로드 코드 인텔용 MCP 서버 구축
한 명의 독립 개발자가 코드베이스 인텔리전스용 MCP 서버를 구축하여 정규직을 유지하면서 하루 8-10시간씩 작업해 4개월 만에 사용자 54명, MRR $950을 달성했습니다. 광고나 그로스 해킹 없이 Reddit과 Medium만 활용했습니다.

Claude Security 공개 베타: 코드베이스 스캔, 자체 발견 검증, 패치 제안
Anthropic이 엔터프라이즈 고객을 대상으로 Claude Security를 퍼블릭 베타로 출시했습니다. 보안 연구원처럼 코드를 추론하고, 적대적 자체 검증을 통해 자신의 결과에 이의를 제기하며, 구체적인 패치를 제안합니다.

Anthropic Claude 유저, 유료 계정에서 기능 제한 조용히 적용됐다고 보고
Claude 유료 구독자가 보고한 바에 따르면, 배포 수준에서 시스템 프롬프트에 제한이 내장되어 모든 세션에서 셸/배시 실행 기능이 작동을 멈췄으며, 이에 대한 통보는 없었다고 합니다. 사용자는 여러 지원 티켓과 항의 양식을 제출했지만 응답을 받지 못한 채 계속해서 요금이 청구되고 있습니다.