ATLAS:Qwen3-14B向けオープンソースのテスト時計算パイプラインがフロンティアレベルのコーディング性能を達成

ATLASは、Qwen3-14Bを中心に構築されたオープンソースのテスト時計算パイプラインで、大幅に低いコストで最先端モデルに匹敵するコーディング性能を実現します。このプロジェクトは、バージニア工科大学の経営学専攻の学生によって開発され、開発中にプログラミングを学びました。
開発の進化
開発者は、これまで組み合わされていなかった既存の研究を結びつけるために、数百の論文を調査して2〜3ヶ月を費やしました。システムは3つの主要バージョンを経て進化しました:
- V1: 基本的なインフラストラクチャで、「非常に初歩的(本質的にはRAGのみ)」と説明されています
- V2: Anthropicの「When Models Manipulate Manifolds」論文に触発されたエネルギー検証を適用し、適切な検証器を実現
- V3: 停止問題の探求を含む広範な研究の後、V1ベースラインから性能を2倍に向上
性能ベンチマーク
599のLiveCodeBench v5問題での結果:
- DeepSeek V3.2 Reasoning: 86.2% pass@1、タスクあたり約0.002ドル(API)
- GPT-5(高): 84.6% pass@1、タスクあたり約0.043ドル(API)
- ATLAS V3: 74.6% pass@1、タスクあたり約0.004ドル(電力)
- Claude 4.5 Sonnet: 71.4% pass@1、タスクあたり約0.066ドル(API)
技術詳細と制限事項
開発者によると、システムは「非常に遅い」とのことです。簡単なタスクは数秒で完了しますが、複雑なコーディング問題には最大1時間かかることがあります。V3.1では、速度と並列処理の向上のためにQwen 3.5 9Bへの移行が進められています。
ATLASには、OpenCodeやClaude CodeをAPI経由で接続できる完全なMaaS(Model-as-a-Service)インフラストラクチャが含まれています。開発者は少なくとも16GBのVRAMを推奨し、それ以下のメモリでは「前述したよりもさらに遅くなる」と警告しています。
セットアップと再現性
このプロジェクトは完全にオープンソースで、商用化の計画はありません。リポジトリはhttps://github.com/itigges22/ATLASで利用可能です。開発者は再現性には改善の余地があると指摘していますが、「Claude Codeにセットアップ最適化を依頼すれば正常に動作するはず」と提案しています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

ClawControl v1.3.1は、メディアサポート、音声ディクテーション、およびLinuxパッケージングを追加しました。
ClawControl v1.3.1は、画像共有、ウェイクワード音声入力、使用状況チャート、Linux AppImage/.debパッケージをサポートするクロスプラットフォームOpenClawクライアントです。このリリースにはセキュリティアップデートが含まれており、OpenClaw 2.19+ユーザーはControl UI Allowed Originsの更新が必要です。

MCP対応エージェントネイティブホスティング:ocl-nexusでAIエージェント経由のアプリデプロイ
ocl-nexusがMCPサーバー設定を導入し、AIコーディングエージェントがAPIキーのみでアプリをSSO保護されたライブ環境に直接デプロイできるようになりました。

Murmur: Claudeコードセッション自動化のためのオープンソースCronデーモン
Murmurは、HEARTBEAT.mdファイルを使用して設定を行うクローンデーモンで、Claudeコードセッションをスケジュールし自動化します。

singularity-claude: Claudeコードのための自己進化型スキルエンジン
singularity-claudeは、スキルの劣化を防ぐための再帰的な進化ループを追加するオープンソースのClaude Codeプラグインです。スキルの実行をスコアリングし、低スコアのスキルを自動修復し、高パフォーマンスのバージョンを結晶化し、能力ギャップを検出します。