ATLAS: Adaptives Testzeit-Lern-Framework übertrifft Claude Sonnet bei Coding-Benchmarks mit einer 500-Dollar-GPU

✍️ OpenClawRadar📅 Veröffentlicht: 27. März 2026🔗 Source
ATLAS: Adaptives Testzeit-Lern-Framework übertrifft Claude Sonnet bei Coding-Benchmarks mit einer 500-Dollar-GPU
Ad

Was ATLAS leistet

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) ist ein Framework, das ein eingefrorenes kleineres Modell in intelligenter Infrastruktur einbettet, um mit führenden API-Modellen zu konkurrieren. Es nutzt strukturierte Generierung, energiebasierte Verifizierung und selbstverifizierte Reparatur ohne Feinabstimmung, API-Aufrufe oder Cloud-Abhängigkeiten. Das System ist vollständig selbst gehostet, ohne dass Daten das Gerät verlassen.

Benchmark-Ergebnisse

Hardware: RTX 5060 Ti 16GB | Modell: Qwen3-14B-Q4_K_M (eingefroren)

  • LiveCodeBench v5: 74,6 % pass@1-v(k=3) bei 599 Aufgaben
  • GPQA Diamond: 47,0 % bei 198 k=5 Multiple-Choice-Wissensaufgaben
  • SciCode: 14,7 % bei 341 k=1 interdisziplinären wissenschaftlichen Programmieraufgaben

Hinweis: pass@k-v(k=3) bedeutet eine eingereichte Lösung pro Aufgabe, generiert über die besten 3 Kandidaten + Lens-Auswahl + iterative Reparatur bei Fehlern. Keine Einzelschuss-Generierung.

V3-Pipeline-Ablationsanalyse

  • Baseline (ohne V3): 54,9 %
  • +Phase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3 % (+12,4 pp)
  • +Phase 1+2 (Lens-Routing): 67,3 % (+0,0 pp)
  • +Phase 1+3 (selbstverifizierte Verfeinerung): 74,6 % (+7,3 pp)

Phase 3 nutzt selbstgenerierte Testfälle zur internen Verifizierung – das Modell sieht den Antwortschlüssel während der Reparatur nie. PR-CoT rettet 36/42 Aufgaben (85,7 % der Phase-3-Rettungen).

Ad

Kosten- und Leistungsvergleich

  • DeepSeek V3.2 Reasoning: 86,2 % LCB pass@1, ~0,002 $/Aufgabe (API, Einzelschuss)
  • GPT-5 (hoch): 84,6 %, ~0,043 $/Aufgabe (API, Einzelschuss)
  • ATLAS V3 (pass@1-v(k=3)): 74,6 %, ~0,004 $/Aufgabe (nur lokaler Strom, Best-of-3 + Reparatur-Pipeline)
  • Claude 4.5 Sonnet: 71,4 %, ~0,066 $/Aufgabe (API, Einzelschuss)
  • Claude 4 Sonnet: 65,5 %, ~0,066 $/Aufgabe (API, Einzelschuss)

ATLAS-Kostenberechnung: Strom bei 0,12 $/kWh (~165W GPU, ~1h 55m für 599 Aufgaben). ATLAS tauscht Latenz gegen Kosten – die Pipeline dauert pro Aufgabe länger als ein einzelner API-Aufruf.

Wie es funktioniert

Die V3-Pipeline hat drei Phasen:

  1. Phase 1: Generieren – PlanSearch mit Einschränkungsextraktion und diversen Plänen, Budget Forcing mit Denk-Token-Steuerung
  2. Verifizieren – Geometric Lens mit Energiebewertung (5120-dim Selbst-Einbettungen) und Sandbox-Code-Ausführung
  3. Phase 3: Reparieren – Selbst-Test-Generierung mit modellgenerierten I/O-Paaren und PR-CoT-Reparatur mit multiperspektivischer Chain-of-Thought

Der Arbeitsablauf: PlanSearch → Budget Forcing → k=3 Kandidaten → Geometric Lens → energie-sortiert → Sandbox → wenn alle fehlschlagen → Selbst-Test-Generierung → PR-CoT-Reparatur → reparierter Code → Sandbox.

Ein einzelner gepatchter llama-server läuft auf K3s und bietet sowohl Generierung mit spekulativer Ausführung als auch Einbettungsdienste.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Fünf kostenlose Claude Desktop-Erweiterungen veröffentlicht: Inspector Lite, Graph Lite, Bible Code, Word Graph und Fun Pack
Werkzeuge

Fünf kostenlose Claude Desktop-Erweiterungen veröffentlicht: Inspector Lite, Graph Lite, Bible Code, Word Graph und Fun Pack

Ein Entwickler hat fünf lokale Claude Desktop-Erweiterungen quelloffen gemacht: Inspector Lite für semantische Codesuche, Graph Lite für ein persönliches Wissensnetz, Fun Pack für Unterhaltungsfunktionen, Word Graph für Bibelstudium und Bible Code für Mustererkennung. Alle laufen lokal ohne externe Abhängigkeiten oder zusätzliche API-Schlüssel.

OpenClawRadar
Warum Ihre Claude Code UI-Ausgabe driftet und wie eine strukturierte Spezifikation das Problem behebt
Werkzeuge

Warum Ihre Claude Code UI-Ausgabe driftet und wie eine strukturierte Spezifikation das Problem behebt

Ein Entwickler erklärt, dass inkonsistente UI-Ausgaben von Claude Code kein Prompt-Problem sind – es ist ein Format-Problem. Die Angabe exakter Hex-Codes, Schriftstärken, Abstände, Bildschirmzustände und Übergänge beseitigt Drift. Außerdem haben sie einen MCP-Server als Open Source veröffentlicht, der Bildschirmaufnahmen in strukturierte Spezifikationen umwandelt.

OpenClawRadar
Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben
Werkzeuge

Brunnfeld Agentic World: Multi-Agenten-Simulation einer mittelalterlichen Wirtschaft ohne Verhaltensvorgaben

Eine TypeScript-Simulation, in der 20 LLM-Agenten autonom in einer mittelalterlichen Dorfwirtschaft handeln, ohne Verhaltensanweisungen, Ziele oder Handelsstrategien. Die Agenten erhalten pro Tick etwa 200 Token-Wahrnehmungen und interagieren über eine deterministische Engine, die Physik, Rezepte und Marktmechaniken verarbeitet.

OpenClawRadar
ToolLoop: Open-Source Agenten-Framework für Claude-ähnliche Tools mit beliebigen Modellen
Werkzeuge

ToolLoop: Open-Source Agenten-Framework für Claude-ähnliche Tools mit beliebigen Modellen

ToolLoop ist ein Open-Source-Python-Framework mit 11 Tools für Dateioperationen, Codesuche, Shell-Zugriff und Sub-Agenten, das über LiteLLM mit jedem LLM funktioniert. Das 2.700-Zeilen-Framework ermöglicht den Wechsel von Modellen mitten im Gespräch mit gemeinsamem Kontext.

OpenClawRadar