АТЛАС: Адаптивная система обучения во время тестирования превосходит Claude Sonnet на бенчмарках по программированию с использованием GPU за $500.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
АТЛАС: Адаптивная система обучения во время тестирования превосходит Claude Sonnet на бенчмарках по программированию с использованием GPU за $500.
Ad

Что делает ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) — это фреймворк, который оборачивает замороженную меньшую модель в интеллектуальную инфраструктуру, чтобы конкурировать с передовыми API-моделями. Он использует структурированную генерацию, энергетическую верификацию и само-верифицируемый ремонт без тонкой настройки, API-вызовов или облачных зависимостей. Система полностью само-хостируемая, данные не покидают машину.

Результаты бенчмарков

Оборудование: RTX 5060 Ti 16GB | Модель: Qwen3-14B-Q4_K_M (замороженная)

  • LiveCodeBench v5: 74,6% pass@1-v(k=3) на 599 задачах
  • GPQA Diamond: 47,0% на 198 k=5 задачах множественного выбора на логическое рассуждение
  • SciCode: 14,7% на 341 k=1 междисциплинарных научных задачах по программированию

Примечание: pass@k-v(k=3) означает одно решение на задачу, сгенерированное через best-of-3 кандидатов + выбор Lens + итеративный ремонт при неудачах. Не одношаговая генерация.

Детализация абляции конвейера V3

  • Базовый уровень (без V3): 54,9%
  • +Фаза 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4 п.п.)
  • +Фаза 1+2 (маршрутизация Lens): 67,3% (+0,0 п.п.)
  • +Фаза 1+3 (само-верифицируемое уточнение): 74,6% (+7,3 п.п.)

Фаза 3 использует самостоятельно сгенерированные тестовые случаи для внутренней верификации — модель никогда не видит ключ ответа во время ремонта. PR-CoT спасает 36/42 задач (85,7% от спасений Фазы 3).

Ad

Сравнение стоимости и производительности

  • DeepSeek V3.2 Reasoning: 86,2% LCB pass@1, ~$0,002/задача (API, одношаговая)
  • GPT-5 (высокий): 84,6%, ~$0,043/задача (API, одношаговая)
  • ATLAS V3 (pass@1-v(k=3)): 74,6%, ~$0,004/задача (только местное электричество, best-of-3 + конвейер ремонта)
  • Claude 4.5 Sonnet: 71,4%, ~$0,066/задача (API, одношаговая)
  • Claude 4 Sonnet: 65,5%, ~$0,066/задача (API, одношаговая)

Расчёт стоимости ATLAS: электричество по $0,12/кВт·ч (~165W GPU, ~1 ч 55 мин для 599 задач). ATLAS жертвует задержкой ради стоимости — конвейер занимает больше времени на задачу, чем один API-вызов.

Как это работает

Конвейер V3 имеет три фазы:

  1. Фаза 1: Генерация — PlanSearch с извлечением ограничений и разнообразных планов, Budget Forcing с контролем токенов мышления
  2. Верификация — Geometric Lens с энергетической оценкой (5120-мерные само-эмбеддинги) и исполнением кода в песочнице
  3. Фаза 3: Ремонт — Self-Test Generation с I/O-парами, сгенерированными моделью, и PR-CoT Repair с многоперспективной цепочкой мыслей

Рабочий процесс: PlanSearch → Budget Forcing → k=3 кандидатов → Geometric Lens → сортировка по энергии → Sandbox → если все неудачи → Self-Test Generation → PR-CoT Repair → отремонтированный код → Sandbox.

Единственный исправленный llama-server работает на K3s, предоставляя как генерацию со спекулятивным исполнением, так и сервисы эмбеддингов.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Tatu: Открытый слой безопасности для Claude, блокирующий секреты и деструктивные команды в блоках кода
Инструменты

Tatu: Открытый слой безопасности для Claude, блокирующий секреты и деструктивные команды в блоках кода

Tatu — это система перехвата с открытым исходным кодом, которая в реальном времени перехватывает действия Claude Code, чтобы блокировать утечку секретов, помечать персональные данные и отклонять деструктивные команды до их выполнения. Установка осуществляется через pip/pipx командой 'tatu-hook init' для включения режима аудита.

OpenClawRadar
Плагин Claude Code для кампаний D&D с отслеживанием состояния в Markdown
Инструменты

Плагин Claude Code для кампаний D&D с отслеживанием состояния в Markdown

Плагин Claude Code использует файлы markdown для отслеживания состояния кампании и позволяет Клоду выступать в роли Мастера подземелий для одиночных сессий D&D. Система бесплатна и имеет открытый исходный код, для начала требуется установить её как плагин, а затем выполнить команду /claude-dnd:new-campaign.

OpenClawRadar
Панель управления Silos: Веб-интерфейс с открытым исходным кодом для управления агентами OpenClaw
Инструменты

Панель управления Silos: Веб-интерфейс с открытым исходным кодом для управления агентами OpenClaw

Silos Dashboard — это веб-интерфейс с лицензией MIT для управления агентами OpenClaw, заменяющий конфигурационные файлы и CLI единым интерфейсом. Он предлагает управление агентами, живой чат с потоковой передачей, установку навыков, доски задач, интеграцию каналов и аналитику.

OpenClawRadar
MarkView: Инструмент с открытым исходным кодом для отображения и управления Markdown-файлами, созданными искусственным интеллектом
Инструменты

MarkView: Инструмент с открытым исходным кодом для отображения и управления Markdown-файлами, созданными искусственным интеллектом

MarkView — это приватный рендеринг-движок, который отображает файлы Markdown с диаграммами Mermaid и математикой KaTeX, доступный как веб-приложение, нативное приложение для macOS и MCP-сервер для интеграции с Claude Desktop и Cursor.

OpenClawRadar