ATLAS : Pipeline de calcul en temps de test open-source pour Qwen3-14B atteint des performances de codage de niveau frontière

ATLAS est un pipeline de calcul en temps de test open-source construit autour de Qwen3-14B qui atteint des performances en programmation comparables aux modèles de pointe à un coût significativement inférieur. Le projet a été développé par un étudiant en gestion d'entreprise à Virginia Tech qui a appris à coder en le construisant.
Évolution du développement
Le développeur a passé deux à trois mois à étudier des centaines d'articles de recherche pour relier des travaux existants qui n'avaient jamais été combinés auparavant. Le système a évolué à travers trois versions majeures :
- V1 : Infrastructure de base, décrite comme "TRÈS rudimentaire (essentiellement juste du RAG)"
- V2 : Application d'une vérification basée sur l'énergie inspirée par l'article d'Anthropic "When Models Manipulate Manifolds", résultant en un vérificateur décent
- V3 : Performances doublées par rapport à la base V1 après des recherches approfondies incluant l'exploration du problème de l'arrêt
Benchmarks de performance
Résultats sur 599 problèmes LiveCodeBench v5 :
- DeepSeek V3.2 Reasoning : 86,2 % pass@1, ~0,002 $ par tâche (API)
- GPT-5 (élevé) : 84,6 % pass@1, ~0,043 $ par tâche (API)
- ATLAS V3 : 74,6 % pass@1, ~0,004 $ par tâche (électricité)
- Claude 4.5 Sonnet : 71,4 % pass@1, ~0,066 $ par tâche (API)
Détails techniques et limitations
Le système est "lent comme l'enfer" selon le développeur. Les tâches faciles prennent quelques secondes, mais les problèmes de programmation complexes peuvent prendre jusqu'à une heure. La version V3.1 passe à Qwen 3.5 9B pour une vitesse et une parallélisation améliorées.
ATLAS inclut une infrastructure complète MaaS (Model-as-a-Service) qui permet de connecter OpenCode ou Claude Code via API. Le développeur recommande au moins 16 Go de VRAM, avertissant qu'avec moins de mémoire, ce sera "encore plus lent que ce que j'ai mentionné".
Configuration et reproductibilité
Le projet est entièrement open source sans plans de commercialisation. Le dépôt est disponible à https://github.com/itigges22/ATLAS. Le développeur note que la reproductibilité nécessite des améliorations, mais suggère que "si vous demandez à Claude Code de l'optimiser pour votre configuration, cela devrait bien fonctionner".
📖 Read the full source: r/LocalLLaMA
👀 See Also

L'outil Monitor de Claude Code achemine les logs du serveur de développement vers des corrections automatiques pilotées par l'IA
L'outil Monitor de Claude Code vous permet d'exécuter un serveur de développement en arrière-plan, de consulter les logs avec des filtres grep intelligents, et de laisser Claude détecter automatiquement les erreurs, écrire des correctifs et les valider — pendant que vous testez l'interface utilisateur.

Framework Open-Source Utilise Claude Code CLI pour la Surveillance Automatisée des Dépôts GitHub
Un développeur a open-sourcé un framework qui exécute Claude Code CLI selon un planning cron pour trier l'activité GitHub sur plusieurs dépôts. L'outil inclut le suivi d'état, la déduplication, les notifications Discord et un système de pré-vérification qui évite les coûts d'API quand rien n'a changé.

Système de traduction auto-mise à jour pour OpenClaw maintient automatiquement les glossaires de domaine.
Un script Python encapsule l'API Kimi2.5 pour traduire les fichiers .srt tout en préservant les indices de bloc, les horodatages et la segmentation. Le système utilise des profils de projet avec des fichiers glossary.json, style.md et memory.jsonl, et inclut une tâche cron qui scrute les sources officielles toutes les 6 heures pour mettre à jour la terminologie.

OpenTidy : Assistant d'arrière-plan Open Source utilisant Claude Code pour les tâches administratives
OpenTidy est un service open-source pour macOS qui lance des sessions persistantes de Claude Code pour gérer des tâches administratives telles que les factures, les formulaires et le tri des communications. Il exécute jusqu'à 10 tâches parallèles avec des notifications Telegram pour les actions sensibles.