Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2

✍️ OpenClawRadar📅 Опубликовано: 28 февраля 2026 г.🔗 Source
Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2
Ad

Эволюция кода улучшает рассуждения LLM на ARC-AGI-2

Исследователи из Imbue опубликовали результаты, показывающие, как эволюция кода может значительно повысить производительность LLM на бенчмарке ARC-AGI-2. Их метод сочетает выборку на основе приспособленности и мутацию кода, управляемую базовой LLM, достигая существенного прогресса для различных типов моделей.

Результаты производительности

Метод эволюции даёт разный прирост в зависимости от базовой модели:

  • Kimi K2.5 (открытые веса): прирост производительности в 2,8 раза, с 12,1% до 34,0% точности на публичном оценочном наборе, при стоимости $2,67 за задачу. Это представляет собой наиболее производительное решение с открытым исходным кодом/открытыми весами для ARC-AGI-2, доступное в настоящее время.
  • Gemini 3 Flash: прирост производительности в 1,8 раза, с 34,0% до 61,4% точности, при стоимости $2,42 за задачу.
  • Gemini 3.1 Pro: улучшение с 88,1% до 95,1% точности, при стоимости $8,71 за задачу. Этот результат конкурентоспособен с текущим состоянием искусства (97,9% при $11,77/задача от Confluence Lab).

Все запуски использовали одинаковую структуру эволюции и промпты. Исследователи отмечают, что оценки на публичном оценочном наборе, использованном для этих результатов, не сопоставимы напрямую с полуприватным набором данных, используемым для официальной таблицы лидеров ARC-AGI-2.

Ad

Как работает эволюция кода

Метод итеративно улучшает начальное решение, используя выборку на основе приспособленности и мутацию кода. Шаг мутации управляется базовой LLM, но не зависит от конкретной выбранной модели. Этот подход может быть применён к широкому спектру задач рассуждения и оптимизации, выходящих за рамки ARC-AGI-2.

Для контекста, ARC-AGI (Corpus абстракции и рассуждения) был предложен Франсуа Шолле в 2019 году как способ измерения «общего подвижного интеллекта» — способности системы эффективно обучаться решению новых задач. Каждая задача представляет 2-5 примеров ввода/вывода (прямоугольные сетки со значениями цвета) и требует вывода правил преобразования для предсказания вывода для входных данных-вызовов.

📖 Read the full source: HN LLM Tools

Ad

👀 Смотрите также

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода
Инструменты

Объяснение режима Claude Cowork: выполнение задач на уровне файлов в сравнении с режимами чата и кода

Режим Cowork у Claude работает внутри выбранной папки для выполнения задач на уровне файлов, таких как организация беспорядочных папок, извлечение структурированных данных из скриншотов и объединение разрозненных заметок в структурированные документы.

OpenClawRadar
MCP Slim: Локальный поиск по эмбеддингам для инструментов MCP сокращает раздувание контекста
Инструменты

MCP Slim: Локальный поиск по эмбеддингам для инструментов MCP сокращает раздувание контекста

MCP Slim — это прокси, который заменяет полные каталоги инструментов MCP тремя мета-инструментами (поиск, описание, вызов), используя локальные эмбеддинги MiniLM для семантического поиска. Он достигает 96% сокращения контекстного окна и работает офлайн без API-ключей.

OpenClawRadar
Выпущен OpenClaw Optimizer v1.18.0 с синхронизацией OpenClaw v2026.3.7.
Инструменты

Выпущен OpenClaw Optimizer v1.18.0 с синхронизацией OpenClaw v2026.3.7.

Навык OpenClaw Optimizer версии 1.18.0 теперь совместим с OpenClaw v2026.3.7, добавив поддержку новых AI-провайдеров, включая Google Gemini 3.1 Flash-Lite и OpenAI gpt-5.4, а также новых CLI-команд, таких как /session idle и /usage cost.

OpenClawRadar
Kvaser: Открытый AI-оркестратор с локальным управлением, маршрутизацией под-агентов и интеграцией Wolfram
Инструменты

Kvaser: Открытый AI-оркестратор с локальным управлением, маршрутизацией под-агентов и интеграцией Wolfram

Kvaser — это прокси-сервер типа «человек посередине» для MCP, который координирует работу под-агентов, используя интеллектуальную белую список инструментов, RAG без эмбеддингов через Kiwix и интеграцию с Wolfram Engine для символьной математики. Построен на базе Qwen 3.6 35B с маршрутизацией под-агентов на разные модели/машины.

OpenClawRadar