ARC-AGI-2 벤치마크에서 코드 진화로 LLM 성능 3배 향상

코드 진화, LLM 추론 능력을 ARC-AGI-2에서 향상

Imbue의 연구진이 코드 진화가 ARC-AGI-2 벤치마크에서 LLM 성능을 크게 향상시킬 수 있다는 결과를 발표했습니다. 이들의 방법은 적합도 기반 샘플링과 기본 LLM이 주도하는 코드 변이를 결합하여 다양한 모델 유형에서 상당한 성능 향상을 달성했습니다.

성능 결과

진화 방법은 기본 모델에 따라 다른 수준의 향상을 보여줍니다:

Kimi K2.5 (오픈 가중치): 2.8배 성능 향상, 공개 평가 세트에서 12.1%에서 34.0% 정확도로, 태스크당 $2.67 비용. 이는 현재 ARC-AGI-2에서 가장 높은 성능을 보이는 오픈소스/오픈 가중치 솔루션입니다.
Gemini 3 Flash: 1.8배 성능 향상, 34.0%에서 61.4% 정확도로, 태스크당 $2.42 비용.
Gemini 3.1 Pro: 88.1%에서 95.1% 정확도로 향상, 태스크당 $8.71 비용. 이 결과는 현재 최첨단 기술(Confluence Lab의 태스크당 $11.77로 97.9%)과 경쟁력이 있습니다.

모든 실행은 동일한 진화 프레임워크와 프롬프트를 사용했습니다. 연구진은 이러한 결과에 사용된 공개 평가 세트의 점수는 공식 ARC-AGI-2 리더보드에 사용된 반-비공개 데이터 세트와 직접 비교할 수 없음을 언급했습니다.

코드 진화 작동 방식

이 방법은 적합도 기반 샘플링과 코드 변이를 사용하여 초기 솔루션을 반복적으로 개선합니다. 변이 단계는 기본 LLM에 의해 주도되지만 선택된 특정 모델과 무관합니다. 이 접근 방식은 ARC-AGI-2를 넘어 다양한 추론 및 최적화 작업에 적용할 수 있습니다.

참고로, ARC-AGI(추상화 및 추론 코퍼스)는 2019년 François Chollet에 의해 제안된 것으로, 시스템이 새로운 문제에 대한 해결책을 효율적으로 학습하는 능력인 '일반 유동 지능'을 측정하는 방법입니다. 각 작업은 2-5개의 입력/출력 예제(색상 값이 있는 직사각형 그리드)를 제공하며, 도전 과제 입력에 대한 출력을 예측하기 위해 변환 규칙을 추론해야 합니다.

📖 전체 출처 읽기: HN LLM Tools

코드 진화 방법, ARC-AGI-2 벤치마크에서 LLM 성능 3배 향상

코드 진화, LLM 추론 능력을 ARC-AGI-2에서 향상

성능 결과

코드 진화 작동 방식

👀 See Also

OpenProphet: 웹 UI를 갖춘 오픈소스 자율 거래 에이전트

사용자가 제작한 Claude 코드용 PTC가 코드 작성이 아닌 분석 작업에서 40-65%의 토큰 절감 효과를 보여줍니다.

Agent MCP Studio: Build Multi-Agent MCP Systems Entirely in a Browser via WASM

병목 현상: 인간 승인 대기열로 인한 병목