ATLAS Framework: 74,6% Coding-Benchmark auf 500$-GPU

Was ATLAS leistet

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) ist ein Framework, das ein eingefrorenes kleineres Modell in intelligenter Infrastruktur einbettet, um mit führenden API-Modellen zu konkurrieren. Es nutzt strukturierte Generierung, energiebasierte Verifizierung und selbstverifizierte Reparatur ohne Feinabstimmung, API-Aufrufe oder Cloud-Abhängigkeiten. Das System ist vollständig selbst gehostet, ohne dass Daten das Gerät verlassen.

Benchmark-Ergebnisse

Hardware: RTX 5060 Ti 16GB | Modell: Qwen3-14B-Q4_K_M (eingefroren)

LiveCodeBench v5: 74,6 % pass@1-v(k=3) bei 599 Aufgaben
GPQA Diamond: 47,0 % bei 198 k=5 Multiple-Choice-Wissensaufgaben
SciCode: 14,7 % bei 341 k=1 interdisziplinären wissenschaftlichen Programmieraufgaben

Hinweis: pass@k-v(k=3) bedeutet eine eingereichte Lösung pro Aufgabe, generiert über die besten 3 Kandidaten + Lens-Auswahl + iterative Reparatur bei Fehlern. Keine Einzelschuss-Generierung.

V3-Pipeline-Ablationsanalyse

Baseline (ohne V3): 54,9 %
+Phase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3 % (+12,4 pp)
+Phase 1+2 (Lens-Routing): 67,3 % (+0,0 pp)
+Phase 1+3 (selbstverifizierte Verfeinerung): 74,6 % (+7,3 pp)

Phase 3 nutzt selbstgenerierte Testfälle zur internen Verifizierung – das Modell sieht den Antwortschlüssel während der Reparatur nie. PR-CoT rettet 36/42 Aufgaben (85,7 % der Phase-3-Rettungen).

Kosten- und Leistungsvergleich

DeepSeek V3.2 Reasoning: 86,2 % LCB pass@1, ~0,002 $/Aufgabe (API, Einzelschuss)
GPT-5 (hoch): 84,6 %, ~0,043 $/Aufgabe (API, Einzelschuss)
ATLAS V3 (pass@1-v(k=3)): 74,6 %, ~0,004 $/Aufgabe (nur lokaler Strom, Best-of-3 + Reparatur-Pipeline)
Claude 4.5 Sonnet: 71,4 %, ~0,066 $/Aufgabe (API, Einzelschuss)
Claude 4 Sonnet: 65,5 %, ~0,066 $/Aufgabe (API, Einzelschuss)

ATLAS-Kostenberechnung: Strom bei 0,12 $/kWh (~165W GPU, ~1h 55m für 599 Aufgaben). ATLAS tauscht Latenz gegen Kosten – die Pipeline dauert pro Aufgabe länger als ein einzelner API-Aufruf.

Wie es funktioniert

Die V3-Pipeline hat drei Phasen:

Phase 1: Generieren – PlanSearch mit Einschränkungsextraktion und diversen Plänen, Budget Forcing mit Denk-Token-Steuerung
Verifizieren – Geometric Lens mit Energiebewertung (5120-dim Selbst-Einbettungen) und Sandbox-Code-Ausführung
Phase 3: Reparieren – Selbst-Test-Generierung mit modellgenerierten I/O-Paaren und PR-CoT-Reparatur mit multiperspektivischer Chain-of-Thought

Der Arbeitsablauf: PlanSearch → Budget Forcing → k=3 Kandidaten → Geometric Lens → energie-sortiert → Sandbox → wenn alle fehlschlagen → Selbst-Test-Generierung → PR-CoT-Reparatur → reparierter Code → Sandbox.

Ein einzelner gepatchter llama-server läuft auf K3s und bietet sowohl Generierung mit spekulativer Ausführung als auch Einbettungsdienste.

📖 Read the full source: HN AI Agents