ATLAS：500ドルGPUでClaude Sonnet超え、コーディングベンチマーク74.6%

ATLASの機能

ATLAS（Adaptive Test-time Learning and Autonomous Specialization）は、フロンティアAPIモデルと競合するために、凍結された小型モデルをインテリジェントなインフラストラクチャでラップするフレームワークです。構造化生成、エネルギーに基づく検証、および微調整、API呼び出し、クラウド依存なしの自己検証修復を採用しています。このシステムは完全に自己ホスト型で、データがマシンから流出することはありません。

ベンチマーク結果

ハードウェア：RTX 5060 Ti 16GB | モデル：Qwen3-14B-Q4_K_M（凍結）

LiveCodeBench v5：599タスクで74.6% pass@1-v(k=3)
GPQA Diamond：198のk=5多肢選択知識推論タスクで47.0%
SciCode：341のk=1クロスドメイン科学コーディングタスクで14.7%

注：pass@k-v(k=3)は、タスクごとに1つのソリューションを提出し、best-of-3候補 + Lens選択 + 失敗時の反復的修復によって生成されることを意味します。単一ショット生成ではありません。

V3パイプラインのアブレーション詳細

ベースライン（V3なし）：54.9%
+フェーズ1（PlanSearch + BudgetForcing + DivSampling）：67.3%（+12.4pp）
+フェーズ1+2（Lensルーティング）：67.3%（+0.0pp）
+フェーズ1+3（自己検証改良）：74.6%（+7.3pp）

フェーズ3では、内部検証のために自己生成されたテストケースを使用します — モデルは修復中に解答キーを見ることはありません。PR-CoTは42タスク中36タスクを救済しました（フェーズ3救済の85.7%）。

コストと性能比較

DeepSeek V3.2 Reasoning：86.2% LCB pass@1、〜$0.002/タスク（API、単一ショット）
GPT-5（高）：84.6%、〜$0.043/タスク（API、単一ショット）
ATLAS V3（pass@1-v(k=3)）：74.6%、〜$0.004/タスク（ローカル電力のみ、best-of-3 + 修復パイプライン）
Claude 4.5 Sonnet：71.4%、〜$0.066/タスク（API、単一ショット）
Claude 4 Sonnet：65.5%、〜$0.066/タスク（API、単一ショット）

ATLASコスト計算：電力$0.12/kWh（〜165W GPU、599タスクに約1時間55分）。ATLASは遅延をコストとトレードオフしています — パイプラインは単一のAPI呼び出しよりもタスクあたりの時間が長くなります。

動作原理

V3パイプラインは3つのフェーズで構成されます：

フェーズ1：生成 — 制約抽出と多様な計画を伴うPlanSearch、思考トークン制御を伴うBudget Forcing
検証 — エネルギースコアリング（5120次元自己埋め込み）とサンドボックスコード実行を伴うGeometric Lens
フェーズ3：修復 — モデル生成I/Oペアを伴うSelf-Test Generation、多視点連鎖思考を伴うPR-CoT Repair

ワークフロー：PlanSearch → Budget Forcing → k=3候補 → Geometric Lens → エネルギーソート → Sandbox → すべて失敗の場合 → Self-Test Generation → PR-CoT Repair → 修復コード → Sandbox。

単一のパッチ適用されたllama-serverがK3s上で実行され、投機的実行を伴う生成と埋め込みサービスの両方を提供します。

📖 Read the full source: HN AI Agents

ATLAS：適応型テスト時学習フレームワークが、500ドルGPUでコーディングベンチマークにおいてClaude Sonnetを上回る

ATLASの機能

ベンチマーク結果

V3パイプラインのアブレーション詳細

コストと性能比較

動作原理

👀 See Also

タイトル：MCPサーバーがAIエージェントのセッション履歴をツール間で共有する方法

ベンチマーク結果：38の実ワークフロータスクでテストされた15のLLM

devopsiphai: オープンソースのClaude Codeスキルが、6つのフェーズにわたって運用の健全性を監査します。

Pali v0.1: 再現可能なベンチマークを備えたLLM向けオープンソースメモリ基盤