코드 진화 방법, ARC-AGI-2 벤치마크에서 LLM 성능 3배 향상

코드 진화, LLM 추론 능력을 ARC-AGI-2에서 향상
Imbue의 연구진이 코드 진화가 ARC-AGI-2 벤치마크에서 LLM 성능을 크게 향상시킬 수 있다는 결과를 발표했습니다. 이들의 방법은 적합도 기반 샘플링과 기본 LLM이 주도하는 코드 변이를 결합하여 다양한 모델 유형에서 상당한 성능 향상을 달성했습니다.
성능 결과
진화 방법은 기본 모델에 따라 다른 수준의 향상을 보여줍니다:
- Kimi K2.5 (오픈 가중치): 2.8배 성능 향상, 공개 평가 세트에서 12.1%에서 34.0% 정확도로, 태스크당 $2.67 비용. 이는 현재 ARC-AGI-2에서 가장 높은 성능을 보이는 오픈소스/오픈 가중치 솔루션입니다.
- Gemini 3 Flash: 1.8배 성능 향상, 34.0%에서 61.4% 정확도로, 태스크당 $2.42 비용.
- Gemini 3.1 Pro: 88.1%에서 95.1% 정확도로 향상, 태스크당 $8.71 비용. 이 결과는 현재 최첨단 기술(Confluence Lab의 태스크당 $11.77로 97.9%)과 경쟁력이 있습니다.
모든 실행은 동일한 진화 프레임워크와 프롬프트를 사용했습니다. 연구진은 이러한 결과에 사용된 공개 평가 세트의 점수는 공식 ARC-AGI-2 리더보드에 사용된 반-비공개 데이터 세트와 직접 비교할 수 없음을 언급했습니다.
코드 진화 작동 방식
이 방법은 적합도 기반 샘플링과 코드 변이를 사용하여 초기 솔루션을 반복적으로 개선합니다. 변이 단계는 기본 LLM에 의해 주도되지만 선택된 특정 모델과 무관합니다. 이 접근 방식은 ARC-AGI-2를 넘어 다양한 추론 및 최적화 작업에 적용할 수 있습니다.
참고로, ARC-AGI(추상화 및 추론 코퍼스)는 2019년 François Chollet에 의해 제안된 것으로, 시스템이 새로운 문제에 대한 해결책을 효율적으로 학습하는 능력인 '일반 유동 지능'을 측정하는 방법입니다. 각 작업은 2-5개의 입력/출력 예제(색상 값이 있는 직사각형 그리드)를 제공하며, 도전 과제 입력에 대한 출력을 예측하기 위해 변환 규칙을 추론해야 합니다.
📖 전체 출처 읽기: HN LLM Tools
👀 See Also

MCP를 통해 클로드가 구글 서치 콘솔 데이터를 자동 분석하다
새로운 무료 MCP가 Claude를 Google Search Console에 직접 연결하여, 수동 CSV 내보내기 없이 질의, 페이지, 클릭, CTR 같은 검색 실적 데이터를 자연어로 질의할 수 있습니다.

에이전트캐시: 멀티 에이전트 LLM 프리픽스 캐싱을 위한 파이썬 라이브러리
agentcache는 프롬프트 접두사를 공유하여 캐시 적중률을 최대 76%까지 달성하고 GPT-4o-mini 테스트에서 추론 시간을 절반 이상 단축하는 Python 라이브러리입니다.

Codesight CLI는 코드베이스를 스캔하여 AI 코딩 에이전트의 토큰 사용량을 줄입니다.
Codesight는 제로 의존성 CLI 도구로, TypeScript, Python, Go 프로젝트를 스캔하여 간결한 컨텍스트 파일을 생성합니다. 실제 프로덕션 코드베이스 벤치마크에 따르면, Claude Code 탐색 토큰을 평균 12.3배 줄여줍니다.

러스트 기반 자체 호스팅 컨텍스추얼 밴딧: 적응형 의사 결정 시스템을 위한 신트라와 라이칸
두 개의 오픈소스 프로젝트: Lycan(전략 노드와 학습된 가중치를 갖춘 그래프 실행 언어)과 Syntra(컴파일된 Lycan 캡슐을 제공하는 Docker/API 어플라이언스). AI 주식 토론 제품을 직접 사용하면서 런타임 버그보다 데이터 파이프라인 버그를 먼저 발견했습니다.