ATLAS Testzeit-Pipeline: 74,6% Pass@1 auf Qwen3-14B

ATLAS ist eine Open-Source-Testzeit-Rechenpipeline, die auf Qwen3-14B basiert und eine Programmierleistung erzielt, die mit Spitzenmodellen vergleichbar ist, jedoch zu deutlich geringeren Kosten. Das Projekt wurde von einem Betriebswirtschaftsstudenten an der Virginia Tech entwickelt, der während des Aufbaus das Programmieren erlernte.

Entwicklungsverlauf

Der Entwickler verbrachte zwei bis drei Monate damit, Hunderte von Forschungsarbeiten zu studieren, um bestehende Forschung zu verknüpfen, die zuvor nicht kombiniert worden war. Das System durchlief drei Hauptversionen:

V1: Grundlegende Infrastruktur, beschrieben als "SEHR rudimentär (im Wesentlichen nur RAG)"
V2: Anwendung einer energiebasierten Verifizierung, inspiriert von Anthropics Papier "When Models Manipulate Manifolds", was zu einem brauchbaren Verifizierer führte
V3: Verdopplung der Leistung gegenüber der V1-Basislinie nach umfangreicher Forschung, einschließlich der Untersuchung des Halteproblems

Leistungsbenchmarks

Ergebnisse bei 599 LiveCodeBench v5-Problemen:

DeepSeek V3.2 Reasoning: 86,2 % pass@1, ~0,002 $ pro Aufgabe (API)
GPT-5 (hoch): 84,6 % pass@1, ~0,043 $ pro Aufgabe (API)
ATLAS V3: 74,6 % pass@1, ~0,004 $ pro Aufgabe (Strom)
Claude 4.5 Sonnet: 71,4 % pass@1, ~0,066 $ pro Aufgabe (API)

Technische Details und Einschränkungen

Das System ist laut Entwickler "höllisch langsam". Einfache Aufgaben dauern Sekunden, aber komplexe Programmierprobleme können bis zu einer Stunde in Anspruch nehmen. V3.1 wechselt zu Qwen 3.5 9B für verbesserte Geschwindigkeit und Parallelisierung.

ATLAS umfasst eine vollständige MaaS-Infrastruktur (Model-as-a-Service), die die Verbindung von OpenCode oder Claude Code über API ermöglicht. Der Entwickler empfiehlt mindestens 16 GB VRAM und warnt, dass es mit weniger Speicher "noch langsamer als erwähnt" sein wird.

Einrichtung und Reproduzierbarkeit

Das Projekt ist vollständig Open Source und hat keine kommerziellen Pläne. Das Repository ist verfügbar unter https://github.com/itigges22/ATLAS. Der Entwickler merkt an, dass die Reproduzierbarkeit noch verbessert werden muss, schlägt aber vor, dass "es gut funktionieren sollte, wenn Sie Claude Code bitten, es für Ihr Setup zu optimieren".

📖 Read the full source: r/LocalLLaMA

ATLAS: Open-Source-Testzeit-Berechnungspipeline für Qwen3-14B erreicht Spitzenleistung im Bereich Coding

Entwicklungsverlauf

Leistungsbenchmarks

Technische Details und Einschränkungen

Einrichtung und Reproduzierbarkeit

👀 Siehe auch

Zusammenarbeiten: Eine Claude-Code-Fähigkeit für strukturiertes, asynchrones Dokumentenschreiben mit Multi-Agent-Übergaben

Eden AI: Europäischer API-Hub für KI-Modelle – Positioniert sich als OpenRouter-Alternative

nervx: CLI-Tool reduziert Claude Code Token-Verbrauch durch Analyse der Codebasis-Struktur

AutoProber: KI-gesteuerte Flugsonde-Automatisierung für Hardware-Hacking