ATLAS Pipeline : 74.6% Pass@1 sur LiveCodeBench pour 0.004$

ATLAS est un pipeline de calcul en temps de test open-source construit autour de Qwen3-14B qui atteint des performances en programmation comparables aux modèles de pointe à un coût significativement inférieur. Le projet a été développé par un étudiant en gestion d'entreprise à Virginia Tech qui a appris à coder en le construisant.

Évolution du développement

Le développeur a passé deux à trois mois à étudier des centaines d'articles de recherche pour relier des travaux existants qui n'avaient jamais été combinés auparavant. Le système a évolué à travers trois versions majeures :

V1 : Infrastructure de base, décrite comme "TRÈS rudimentaire (essentiellement juste du RAG)"
V2 : Application d'une vérification basée sur l'énergie inspirée par l'article d'Anthropic "When Models Manipulate Manifolds", résultant en un vérificateur décent
V3 : Performances doublées par rapport à la base V1 après des recherches approfondies incluant l'exploration du problème de l'arrêt

Benchmarks de performance

Résultats sur 599 problèmes LiveCodeBench v5 :

DeepSeek V3.2 Reasoning : 86,2 % pass@1, ~0,002 $ par tâche (API)
GPT-5 (élevé) : 84,6 % pass@1, ~0,043 $ par tâche (API)
ATLAS V3 : 74,6 % pass@1, ~0,004 $ par tâche (électricité)
Claude 4.5 Sonnet : 71,4 % pass@1, ~0,066 $ par tâche (API)

Détails techniques et limitations

Le système est "lent comme l'enfer" selon le développeur. Les tâches faciles prennent quelques secondes, mais les problèmes de programmation complexes peuvent prendre jusqu'à une heure. La version V3.1 passe à Qwen 3.5 9B pour une vitesse et une parallélisation améliorées.

ATLAS inclut une infrastructure complète MaaS (Model-as-a-Service) qui permet de connecter OpenCode ou Claude Code via API. Le développeur recommande au moins 16 Go de VRAM, avertissant qu'avec moins de mémoire, ce sera "encore plus lent que ce que j'ai mentionné".

Configuration et reproductibilité

Le projet est entièrement open source sans plans de commercialisation. Le dépôt est disponible à https://github.com/itigges22/ATLAS. Le développeur note que la reproductibilité nécessite des améliorations, mais suggère que "si vous demandez à Claude Code de l'optimiser pour votre configuration, cela devrait bien fonctionner".

📖 Read the full source: r/LocalLLaMA