ATLAS : Un Cadre d'Apprentissage Adaptatif en Temps de Test Surpasse Claude Sonnet sur les Benchmarks de Codage avec un GPU à 500 $

✍️ OpenClawRadar📅 Publié: March 27, 2026🔗 Source
ATLAS : Un Cadre d'Apprentissage Adaptatif en Temps de Test Surpasse Claude Sonnet sur les Benchmarks de Codage avec un GPU à 500 $
Ad

Ce que fait ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) est un cadre qui enveloppe un modèle plus petit figé dans une infrastructure intelligente pour rivaliser avec les modèles API de pointe. Il utilise une génération structurée, une vérification basée sur l'énergie et une réparation auto-vérifiée sans fine-tuning, appels API ou dépendances cloud. Le système est entièrement auto-hébergé, aucune donnée ne quittant la machine.

Résultats de benchmark

Matériel : RTX 5060 Ti 16GB | Modèle : Qwen3-14B-Q4_K_M (figé)

  • LiveCodeBench v5 : 74,6 % pass@1-v(k=3) sur 599 tâches
  • GPQA Diamond : 47,0 % sur 198 tâches de raisonnement de connaissances à choix multiples k=5
  • SciCode : 14,7 % sur 341 tâches de codage scientifique inter-domaines k=1

Note : pass@k-v(k=3) signifie une solution soumise par tâche, générée via les meilleurs des 3 candidats + sélection Lens + réparation itérative sur les échecs. Pas une génération en un seul coup.

Décomposition de l'ablation du pipeline V3

  • Ligne de base (sans V3) : 54,9 %
  • +Phase 1 (PlanSearch + BudgetForcing + DivSampling) : 67,3 % (+12,4 pp)
  • +Phase 1+2 (routage Lens) : 67,3 % (+0,0 pp)
  • +Phase 1+3 (raffinement auto-vérifié) : 74,6 % (+7,3 pp)

La Phase 3 utilise des cas de test auto-générés pour une vérification interne — le modèle ne voit jamais la clé de réponse pendant la réparation. PR-CoT sauve 36/42 tâches (85,7 % des sauvetages de Phase 3).

Ad

Comparaison des coûts et performances

  • DeepSeek V3.2 Reasoning : 86,2 % LCB pass@1, ~0,002 $/tâche (API, single-shot)
  • GPT-5 (élevé) : 84,6 %, ~0,043 $/tâche (API, single-shot)
  • ATLAS V3 (pass@1-v(k=3)) : 74,6 %, ~0,004 $/tâche (électricité locale uniquement, pipeline best-of-3 + réparation)
  • Claude 4.5 Sonnet : 71,4 %, ~0,066 $/tâche (API, single-shot)
  • Claude 4 Sonnet : 65,5 %, ~0,066 $/tâche (API, single-shot)

Calcul du coût ATLAS : électricité à 0,12 $/kWh (~165W GPU, ~1h 55m pour 599 tâches). ATLAS échange la latence contre le coût — le pipeline prend plus de temps par tâche qu'un seul appel API.

Comment ça marche

Le pipeline V3 a trois phases :

  1. Phase 1 : Générer — PlanSearch avec extraction de contraintes et plans diversifiés, Budget Forcing avec contrôle des tokens de réflexion
  2. Vérifier — Geometric Lens avec notation énergétique (auto-embeddings 5120-dim) et exécution de code sandbox
  3. Phase 3 : Réparer — Self-Test Generation avec paires E/S générées par le modèle et PR-CoT Repair avec chain-of-thought multi-perspectives

Le flux de travail : PlanSearch → Budget Forcing → k=3 candidats → Geometric Lens → tri énergétique → Sandbox → si tous échouent → Self-Test Generation → PR-CoT Repair → code réparé → Sandbox.

Un seul serveur llama patché tourne sur K3s, fournissant à la fois la génération avec exécution spéculative et les services d'embedding.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

MCP permet à Claude d'analyser automatiquement les données de Google Search Console
Tools

MCP permet à Claude d'analyser automatiquement les données de Google Search Console

Un nouveau MCP gratuit connecte Claude directement à Google Search Console, permettant d'interroger en langage naturel les données de performance de recherche comme les requêtes, les pages, les clics et le CTR, sans export CSV manuel.

OpenClawRadar
GLM 5 sur Mac M3 : Observations de performance pour le codage agentique
Tools

GLM 5 sur Mac M3 : Observations de performance pour le codage agentique

Un utilisateur rapporte avoir exécuté GLM 5 via la quantification 4 bits de MLX sur un Mac M3 avec 512 Go de RAM, le trouvant utilisable pour le codage agentique avec un contexte inférieur à 50 000 tokens, mais notant des ralentissements significatifs au-delà de ce seuil.

OpenClawRadar
Discussion Reddit : Les fichiers Identity.md sont insuffisants pour la stabilité de la personnalité des employés IA sans une architecture de modèle appropriée.
Tools

Discussion Reddit : Les fichiers Identity.md sont insuffisants pour la stabilité de la personnalité des employés IA sans une architecture de modèle appropriée.

Une discussion sur Reddit soutient que l'ajustement des fichiers identity.md pour prévenir la contamination de personnalité dans les équipes d'employés IA est inefficace si l'architecture sous-jacente du modèle ne fait que simuler la séparation des rôles. Le post recommande d'utiliser le backend Minimax M2.7, qui a intégré la conscience des limites directement dans l'entraînement de base à travers plus de 100 cycles d'auto-évolution.

OpenClawRadar
PhantomCrowd : Simulateur d'audience multi-agents utilisant Claude Code
Tools

PhantomCrowd : Simulateur d'audience multi-agents utilisant Claude Code

PhantomCrowd est un moteur de prédiction multi-agent axé sur le marketing qui simule la réaction de véritables audiences au contenu avant sa publication. Il génère 10 à 500 personnages avec des données démographiques et des personnalités uniques, chacun réagissant indépendamment à du contenu comme des textes publicitaires ou des publications sur les réseaux sociaux.

OpenClawRadar