ATLAS 14B 74.6% Codage GPU 500$ vs Sonnet

Ce que fait ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) est un cadre qui enveloppe un modèle plus petit figé dans une infrastructure intelligente pour rivaliser avec les modèles API de pointe. Il utilise une génération structurée, une vérification basée sur l'énergie et une réparation auto-vérifiée sans fine-tuning, appels API ou dépendances cloud. Le système est entièrement auto-hébergé, aucune donnée ne quittant la machine.

Résultats de benchmark

Matériel : RTX 5060 Ti 16GB | Modèle : Qwen3-14B-Q4_K_M (figé)

LiveCodeBench v5 : 74,6 % pass@1-v(k=3) sur 599 tâches
GPQA Diamond : 47,0 % sur 198 tâches de raisonnement de connaissances à choix multiples k=5
SciCode : 14,7 % sur 341 tâches de codage scientifique inter-domaines k=1

Note : pass@k-v(k=3) signifie une solution soumise par tâche, générée via les meilleurs des 3 candidats + sélection Lens + réparation itérative sur les échecs. Pas une génération en un seul coup.

Décomposition de l'ablation du pipeline V3

Ligne de base (sans V3) : 54,9 %
+Phase 1 (PlanSearch + BudgetForcing + DivSampling) : 67,3 % (+12,4 pp)
+Phase 1+2 (routage Lens) : 67,3 % (+0,0 pp)
+Phase 1+3 (raffinement auto-vérifié) : 74,6 % (+7,3 pp)

La Phase 3 utilise des cas de test auto-générés pour une vérification interne — le modèle ne voit jamais la clé de réponse pendant la réparation. PR-CoT sauve 36/42 tâches (85,7 % des sauvetages de Phase 3).

Comparaison des coûts et performances

DeepSeek V3.2 Reasoning : 86,2 % LCB pass@1, ~0,002 $/tâche (API, single-shot)
GPT-5 (élevé) : 84,6 %, ~0,043 $/tâche (API, single-shot)
ATLAS V3 (pass@1-v(k=3)) : 74,6 %, ~0,004 $/tâche (électricité locale uniquement, pipeline best-of-3 + réparation)
Claude 4.5 Sonnet : 71,4 %, ~0,066 $/tâche (API, single-shot)
Claude 4 Sonnet : 65,5 %, ~0,066 $/tâche (API, single-shot)

Calcul du coût ATLAS : électricité à 0,12 $/kWh (~165W GPU, ~1h 55m pour 599 tâches). ATLAS échange la latence contre le coût — le pipeline prend plus de temps par tâche qu'un seul appel API.

Comment ça marche

Le pipeline V3 a trois phases :

Phase 1 : Générer — PlanSearch avec extraction de contraintes et plans diversifiés, Budget Forcing avec contrôle des tokens de réflexion
Vérifier — Geometric Lens avec notation énergétique (auto-embeddings 5120-dim) et exécution de code sandbox
Phase 3 : Réparer — Self-Test Generation avec paires E/S générées par le modèle et PR-CoT Repair avec chain-of-thought multi-perspectives

Le flux de travail : PlanSearch → Budget Forcing → k=3 candidats → Geometric Lens → tri énergétique → Sandbox → si tous échouent → Self-Test Generation → PR-CoT Repair → code réparé → Sandbox.

Un seul serveur llama patché tourne sur K3s, fournissant à la fois la génération avec exécution spéculative et les services d'embedding.

📖 Read the full source: HN AI Agents

ATLAS : Un Cadre d'Apprentissage Adaptatif en Temps de Test Surpasse Claude Sonnet sur les Benchmarks de Codage avec un GPU à 500 $

Ce que fait ATLAS

Résultats de benchmark

Décomposition de l'ablation du pipeline V3

Comparaison des coûts et performances

Comment ça marche

👀 See Also

Memento v1.0 : Serveur MCP à Mémoire Persistante pour Claude Code avec 17 Outils

Gemma-4 26B-A4B avec Opencode fonctionne efficacement sur MacBook Air M5

Schema structuré : Qwen Meetup Draft - Le harnais d'appel de fonction améliore la conformité CoT de 9,91 % à 100 %

Cadre de Prompt Visuel Remplace les Prompts Textuels par une Image Unique pour Claude AI