АТЛАС: Адаптивная система обучения во время тестирования превосходит Claude Sonnet на бенчмарках по программированию с использованием GPU за $500.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source

Что делает ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) — это фреймворк, который оборачивает замороженную меньшую модель в интеллектуальную инфраструктуру, чтобы конкурировать с передовыми API-моделями. Он использует структурированную генерацию, энергетическую верификацию и само-верифицируемый ремонт без тонкой настройки, API-вызовов или облачных зависимостей. Система полностью само-хостируемая, данные не покидают машину.

Результаты бенчмарков

Оборудование: RTX 5060 Ti 16GB | Модель: Qwen3-14B-Q4_K_M (замороженная)

LiveCodeBench v5: 74,6% pass@1-v(k=3) на 599 задачах
GPQA Diamond: 47,0% на 198 k=5 задачах множественного выбора на логическое рассуждение
SciCode: 14,7% на 341 k=1 междисциплинарных научных задачах по программированию

Примечание: pass@k-v(k=3) означает одно решение на задачу, сгенерированное через best-of-3 кандидатов + выбор Lens + итеративный ремонт при неудачах. Не одношаговая генерация.

Детализация абляции конвейера V3

Базовый уровень (без V3): 54,9%
+Фаза 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4 п.п.)
+Фаза 1+2 (маршрутизация Lens): 67,3% (+0,0 п.п.)
+Фаза 1+3 (само-верифицируемое уточнение): 74,6% (+7,3 п.п.)

Фаза 3 использует самостоятельно сгенерированные тестовые случаи для внутренней верификации — модель никогда не видит ключ ответа во время ремонта. PR-CoT спасает 36/42 задач (85,7% от спасений Фазы 3).

Сравнение стоимости и производительности

DeepSeek V3.2 Reasoning: 86,2% LCB pass@1, ~$0,002/задача (API, одношаговая)
GPT-5 (высокий): 84,6%, ~$0,043/задача (API, одношаговая)
ATLAS V3 (pass@1-v(k=3)): 74,6%, ~$0,004/задача (только местное электричество, best-of-3 + конвейер ремонта)
Claude 4.5 Sonnet: 71,4%, ~$0,066/задача (API, одношаговая)
Claude 4 Sonnet: 65,5%, ~$0,066/задача (API, одношаговая)

Расчёт стоимости ATLAS: электричество по $0,12/кВт·ч (~165W GPU, ~1 ч 55 мин для 599 задач). ATLAS жертвует задержкой ради стоимости — конвейер занимает больше времени на задачу, чем один API-вызов.

Как это работает

Конвейер V3 имеет три фазы:

Фаза 1: Генерация — PlanSearch с извлечением ограничений и разнообразных планов, Budget Forcing с контролем токенов мышления
Верификация — Geometric Lens с энергетической оценкой (5120-мерные само-эмбеддинги) и исполнением кода в песочнице
Фаза 3: Ремонт — Self-Test Generation с I/O-парами, сгенерированными моделью, и PR-CoT Repair с многоперспективной цепочкой мыслей

Рабочий процесс: PlanSearch → Budget Forcing → k=3 кандидатов → Geometric Lens → сортировка по энергии → Sandbox → если все неудачи → Self-Test Generation → PR-CoT Repair → отремонтированный код → Sandbox.

Единственный исправленный llama-server работает на K3s, предоставляя как генерацию со спекулятивным исполнением, так и сервисы эмбеддингов.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Инструменты

Нюкс: Автономный тестовый комплекс для ИИ-агентов

Nyx — это система чёрного ящика для тестирования, которая исследует ИИ-агентов на предмет режимов отказа, таких как логические ошибки, сбои в рассуждениях и уязвимости безопасности, посредством многоходовых адаптивных диалогов. Она выявляет за менее чем 10 минут то, на что ручные проверки тратят часы.

20 апр. 2026 г., 01:45 UTC

OpenClawRadar

Инструменты

Agentlint: Приложение GitHub, которое выявляет противоречия в CLAUDE.md и сломанные указатели в каждом PR

Agentlint — это GitHub-приложение, которое проверяет всю поверхность правил вашего агента (CLAUDE.md, AGENTS.md, навыки, хуки) в каждом PR, публикуя встроенные комментарии о противоречиях, неработающих путях и неподдерживаемых функциях платформы. Бесплатно для публичных репозиториев.

7 мая 2026 г., 18:21 UTC

OpenClawRadar

Инструменты

Локальная система памяти MCP с консолидацией для AI-диалогов

Разработчик создал MCP-сервер, предоставляющий постоянную локальную память для AI-клиентов, используя Qwen 2.5-7B для консолидации диалогов в структурированные документы знаний каждые 6 часов. Система полностью работает на вашем оборудовании с семантическим дедуплицированием, адаптивной оценкой и векторным поиском FAISS.

26 февр. 2026 г., 11:45 UTC

OpenClawRadar

Инструменты

Сборка локального сервера LLM за $6.4K: Анализ TCO в сравнении с затратами на API

Разработчик публикует детальный анализ совокупной стоимости владения локальным сервером с 4x MI100, работающим под управлением llama.cpp, в сравнении с API-аналогами, включая тарифы OpenAI и Z.AI для программирования.

31 мая 2026 г., 12:18 UTC

OpenClawRadar