2.8x Ускорение LLM на ARC-AGI-2: Метод эволюции кода

Эволюция кода улучшает рассуждения LLM на ARC-AGI-2

Исследователи из Imbue опубликовали результаты, показывающие, как эволюция кода может значительно повысить производительность LLM на бенчмарке ARC-AGI-2. Их метод сочетает выборку на основе приспособленности и мутацию кода, управляемую базовой LLM, достигая существенного прогресса для различных типов моделей.

Результаты производительности

Метод эволюции даёт разный прирост в зависимости от базовой модели:

Kimi K2.5 (открытые веса): прирост производительности в 2,8 раза, с 12,1% до 34,0% точности на публичном оценочном наборе, при стоимости $2,67 за задачу. Это представляет собой наиболее производительное решение с открытым исходным кодом/открытыми весами для ARC-AGI-2, доступное в настоящее время.
Gemini 3 Flash: прирост производительности в 1,8 раза, с 34,0% до 61,4% точности, при стоимости $2,42 за задачу.
Gemini 3.1 Pro: улучшение с 88,1% до 95,1% точности, при стоимости $8,71 за задачу. Этот результат конкурентоспособен с текущим состоянием искусства (97,9% при $11,77/задача от Confluence Lab).

Все запуски использовали одинаковую структуру эволюции и промпты. Исследователи отмечают, что оценки на публичном оценочном наборе, использованном для этих результатов, не сопоставимы напрямую с полуприватным набором данных, используемым для официальной таблицы лидеров ARC-AGI-2.

Как работает эволюция кода

Метод итеративно улучшает начальное решение, используя выборку на основе приспособленности и мутацию кода. Шаг мутации управляется базовой LLM, но не зависит от конкретной выбранной модели. Этот подход может быть применён к широкому спектру задач рассуждения и оптимизации, выходящих за рамки ARC-AGI-2.

Для контекста, ARC-AGI (Corpus абстракции и рассуждения) был предложен Франсуа Шолле в 2019 году как способ измерения «общего подвижного интеллекта» — способности системы эффективно обучаться решению новых задач. Каждая задача представляет 2-5 примеров ввода/вывода (прямоугольные сетки со значениями цвета) и требует вывода правил преобразования для предсказания вывода для входных данных-вызовов.

📖 Read the full source: HN LLM Tools

Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2

Эволюция кода улучшает рассуждения LLM на ARC-AGI-2

Результаты производительности

Как работает эволюция кода

👀 Смотрите также

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода

MCP Slim: Локальный поиск по эмбеддингам для инструментов MCP сокращает раздувание контекста

Выпущен OpenClaw Optimizer v1.18.0 с синхронизацией OpenClaw v2026.3.7.

Kvaser: Открытый AI-оркестратор с локальным управлением, маршрутизацией под-агентов и интеграцией Wolfram