ATLAS: 74,6% pass@1 на LiveCodeBench v5 за $0,004

ATLAS — это открытый конвейер вычислений во время тестирования, построенный на основе Qwen3-14B, который достигает производительности в кодировании, сопоставимой с передовыми моделями, при значительно более низкой стоимости. Проект был разработан студентом бизнес-менеджмента из Virginia Tech, который научился программировать в процессе его создания.

Эволюция разработки

Разработчик потратил два-три месяца на изучение сотен статей, чтобы объединить существующие исследования, которые ранее не сочетались. Система прошла через три основные версии:

V1: Базовая инфраструктура, описанная как «ОЧЕНЬ примитивная (по сути, просто RAG)»
V2: Применена энергетическая верификация, вдохновлённая статьёй Anthropic «When Models Manipulate Manifolds», что привело к созданию достойного верификатора
V3: Удвоенная производительность по сравнению с базовой версией V1 после обширных исследований, включая изучение проблемы остановки

Бенчмарки производительности

Результаты на 599 задачах LiveCodeBench v5:

DeepSeek V3.2 Reasoning: 86,2% pass@1, ~$0,002 за задачу (API)
GPT-5 (высокий): 84,6% pass@1, ~$0,043 за задачу (API)
ATLAS V3: 74,6% pass@1, ~$0,004 за задачу (электричество)
Claude 4.5 Sonnet: 71,4% pass@1, ~$0,066 за задачу (API)

Технические детали и ограничения

Система, по словам разработчика, «чертовски медленная». Простые задачи занимают секунды, но сложные проблемы программирования могут занимать до часа. Версия V3.1 переходит на Qwen 3.5 9B для улучшения скорости и параллелизации.

ATLAS включает полную инфраструктуру MaaS (Model-as-a-Service), которая позволяет подключать OpenCode или Claude Code через API. Разработчик рекомендует как минимум 16 ГБ видеопамяти, предупреждая, что с меньшим объёмом памяти система будет «ещё медленнее, чем я упоминал».

Настройка и воспроизводимость

Проект полностью открытый, без планов коммерциализации. Репозиторий доступен по адресу https://github.com/itigges22/ATLAS. Разработчик отмечает, что воспроизводимость требует доработки, но предполагает, что «если вы попросите Claude Code оптимизировать его под вашу настройку, всё должно работать нормально».

📖 Read the full source: r/LocalLLaMA

АТЛАС: Открытый конвейер вычислений во время тестирования для Qwen3-14B демонстрирует высочайший уровень производительности в программировании

Эволюция разработки

Бенчмарки производительности

Технические детали и ограничения

Настройка и воспроизводимость

👀 Смотрите также

LobsterBoard добавляет систему тем и галерею шаблонов

WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude

Разработчик тестирует Qwen3.5 27B в сравнении с более крупными моделями для локальных задач программирования.

ConnectSafely AI MCP Server связывает LinkedIn с Claude для прямого управления