Qwen3-14B向けATLASパイプライン、74.6% pass@1達成

ATLASは、Qwen3-14Bを中心に構築されたオープンソースのテスト時計算パイプラインで、大幅に低いコストで最先端モデルに匹敵するコーディング性能を実現します。このプロジェクトは、バージニア工科大学の経営学専攻の学生によって開発され、開発中にプログラミングを学びました。

開発の進化

開発者は、これまで組み合わされていなかった既存の研究を結びつけるために、数百の論文を調査して2〜3ヶ月を費やしました。システムは3つの主要バージョンを経て進化しました：

V1: 基本的なインフラストラクチャで、「非常に初歩的（本質的にはRAGのみ）」と説明されています
V2: Anthropicの「When Models Manipulate Manifolds」論文に触発されたエネルギー検証を適用し、適切な検証器を実現
V3: 停止問題の探求を含む広範な研究の後、V1ベースラインから性能を2倍に向上

性能ベンチマーク

599のLiveCodeBench v5問題での結果：

DeepSeek V3.2 Reasoning: 86.2% pass@1、タスクあたり約0.002ドル（API）
GPT-5（高）: 84.6% pass@1、タスクあたり約0.043ドル（API）
ATLAS V3: 74.6% pass@1、タスクあたり約0.004ドル（電力）
Claude 4.5 Sonnet: 71.4% pass@1、タスクあたり約0.066ドル（API）

技術詳細と制限事項

開発者によると、システムは「非常に遅い」とのことです。簡単なタスクは数秒で完了しますが、複雑なコーディング問題には最大1時間かかることがあります。V3.1では、速度と並列処理の向上のためにQwen 3.5 9Bへの移行が進められています。

ATLASには、OpenCodeやClaude CodeをAPI経由で接続できる完全なMaaS（Model-as-a-Service）インフラストラクチャが含まれています。開発者は少なくとも16GBのVRAMを推奨し、それ以下のメモリでは「前述したよりもさらに遅くなる」と警告しています。

セットアップと再現性

このプロジェクトは完全にオープンソースで、商用化の計画はありません。リポジトリはhttps://github.com/itigges22/ATLASで利用可能です。開発者は再現性には改善の余地があると指摘していますが、「Claude Codeにセットアップ最適化を依頼すれば正常に動作するはず」と提案しています。

📖 Read the full source: r/LocalLLaMA