ATLAS:適応型テスト時学習フレームワークが、500ドルGPUでコーディングベンチマークにおいてClaude Sonnetを上回る

ATLASの機能
ATLAS(Adaptive Test-time Learning and Autonomous Specialization)は、フロンティアAPIモデルと競合するために、凍結された小型モデルをインテリジェントなインフラストラクチャでラップするフレームワークです。構造化生成、エネルギーに基づく検証、および微調整、API呼び出し、クラウド依存なしの自己検証修復を採用しています。このシステムは完全に自己ホスト型で、データがマシンから流出することはありません。
ベンチマーク結果
ハードウェア:RTX 5060 Ti 16GB | モデル:Qwen3-14B-Q4_K_M(凍結)
- LiveCodeBench v5:599タスクで74.6% pass@1-v(k=3)
- GPQA Diamond:198のk=5多肢選択知識推論タスクで47.0%
- SciCode:341のk=1クロスドメイン科学コーディングタスクで14.7%
注:pass@k-v(k=3)は、タスクごとに1つのソリューションを提出し、best-of-3候補 + Lens選択 + 失敗時の反復的修復によって生成されることを意味します。単一ショット生成ではありません。
V3パイプラインのアブレーション詳細
- ベースライン(V3なし):54.9%
- +フェーズ1(PlanSearch + BudgetForcing + DivSampling):67.3%(+12.4pp)
- +フェーズ1+2(Lensルーティング):67.3%(+0.0pp)
- +フェーズ1+3(自己検証改良):74.6%(+7.3pp)
フェーズ3では、内部検証のために自己生成されたテストケースを使用します — モデルは修復中に解答キーを見ることはありません。PR-CoTは42タスク中36タスクを救済しました(フェーズ3救済の85.7%)。
コストと性能比較
- DeepSeek V3.2 Reasoning:86.2% LCB pass@1、〜$0.002/タスク(API、単一ショット)
- GPT-5(高):84.6%、〜$0.043/タスク(API、単一ショット)
- ATLAS V3(pass@1-v(k=3)):74.6%、〜$0.004/タスク(ローカル電力のみ、best-of-3 + 修復パイプライン)
- Claude 4.5 Sonnet:71.4%、〜$0.066/タスク(API、単一ショット)
- Claude 4 Sonnet:65.5%、〜$0.066/タスク(API、単一ショット)
ATLASコスト計算:電力$0.12/kWh(〜165W GPU、599タスクに約1時間55分)。ATLASは遅延をコストとトレードオフしています — パイプラインは単一のAPI呼び出しよりもタスクあたりの時間が長くなります。
動作原理
V3パイプラインは3つのフェーズで構成されます:
- フェーズ1:生成 — 制約抽出と多様な計画を伴うPlanSearch、思考トークン制御を伴うBudget Forcing
- 検証 — エネルギースコアリング(5120次元自己埋め込み)とサンドボックスコード実行を伴うGeometric Lens
- フェーズ3:修復 — モデル生成I/Oペアを伴うSelf-Test Generation、多視点連鎖思考を伴うPR-CoT Repair
ワークフロー:PlanSearch → Budget Forcing → k=3候補 → Geometric Lens → エネルギーソート → Sandbox → すべて失敗の場合 → Self-Test Generation → PR-CoT Repair → 修復コード → Sandbox。
単一のパッチ適用されたllama-serverがK3s上で実行され、投機的実行を伴う生成と埋め込みサービスの両方を提供します。
📖 Read the full source: HN AI Agents
👀 See Also

SWE-CI:新たなベンチマークがCIを通じた長期コードメンテナンスにおけるAIエージェントをテスト
SWE-CIは、LLM駆動エージェントが継続的インテグレーションサイクルを通じてコードベースを維持する能力を評価するリポジトリレベルのベンチマークです。静的バグ修正から長期にわたる保守性へと焦点を移し、100の実世界タスクにわたって評価します。

Claude Code プロンプト改善ツール v0.5.3: プランモードのリファクタリングとサブエージェント優先の調査方法
v0.5.3では、プランモードの可読性向上のためのPreToolUseフック(クリーンな書き直し、決定履歴なし)を追加し、曖昧なプロンプト調査をHaiku上のTask/Exploreサブエージェントに移行してメインコンテキストのトークンを節約します。また、プラグインがWindowsで動作するようになり、GitHubスターは1.4K以上になりました。

Cloken: Claudeコンテキスト使用率をリアルタイム表示するChrome拡張機能
Clokenは無料のChrome拡張機能で、現在のClaude.aiチャットのコンテキスト使用率(メッセージ、ファイル、画像、システムプロンプトを含む)をパーセンテージで表示します。

HomeClawプラグインは、Apple HomeKitをOpenClawに接続します。
HomeClawは、Apple Home/HomeKitデバイスをOpenClawに接続するOpenClawプラグインです。公認配布のためのApple HomeKit制限により、ビルドと実行にはApple Developerアカウントが必要です。