ATLAS: Open-Source-Testzeit-Berechnungspipeline für Qwen3-14B erreicht Spitzenleistung im Bereich Coding

✍️ OpenClawRadar📅 Veröffentlicht: 10. März 2026🔗 Source
ATLAS: Open-Source-Testzeit-Berechnungspipeline für Qwen3-14B erreicht Spitzenleistung im Bereich Coding
Ad

ATLAS ist eine Open-Source-Testzeit-Rechenpipeline, die auf Qwen3-14B basiert und eine Programmierleistung erzielt, die mit Spitzenmodellen vergleichbar ist, jedoch zu deutlich geringeren Kosten. Das Projekt wurde von einem Betriebswirtschaftsstudenten an der Virginia Tech entwickelt, der während des Aufbaus das Programmieren erlernte.

Entwicklungsverlauf

Der Entwickler verbrachte zwei bis drei Monate damit, Hunderte von Forschungsarbeiten zu studieren, um bestehende Forschung zu verknüpfen, die zuvor nicht kombiniert worden war. Das System durchlief drei Hauptversionen:

  • V1: Grundlegende Infrastruktur, beschrieben als "SEHR rudimentär (im Wesentlichen nur RAG)"
  • V2: Anwendung einer energiebasierten Verifizierung, inspiriert von Anthropics Papier "When Models Manipulate Manifolds", was zu einem brauchbaren Verifizierer führte
  • V3: Verdopplung der Leistung gegenüber der V1-Basislinie nach umfangreicher Forschung, einschließlich der Untersuchung des Halteproblems

Leistungsbenchmarks

Ergebnisse bei 599 LiveCodeBench v5-Problemen:

  • DeepSeek V3.2 Reasoning: 86,2 % pass@1, ~0,002 $ pro Aufgabe (API)
  • GPT-5 (hoch): 84,6 % pass@1, ~0,043 $ pro Aufgabe (API)
  • ATLAS V3: 74,6 % pass@1, ~0,004 $ pro Aufgabe (Strom)
  • Claude 4.5 Sonnet: 71,4 % pass@1, ~0,066 $ pro Aufgabe (API)
Ad

Technische Details und Einschränkungen

Das System ist laut Entwickler "höllisch langsam". Einfache Aufgaben dauern Sekunden, aber komplexe Programmierprobleme können bis zu einer Stunde in Anspruch nehmen. V3.1 wechselt zu Qwen 3.5 9B für verbesserte Geschwindigkeit und Parallelisierung.

ATLAS umfasst eine vollständige MaaS-Infrastruktur (Model-as-a-Service), die die Verbindung von OpenCode oder Claude Code über API ermöglicht. Der Entwickler empfiehlt mindestens 16 GB VRAM und warnt, dass es mit weniger Speicher "noch langsamer als erwähnt" sein wird.

Einrichtung und Reproduzierbarkeit

Das Projekt ist vollständig Open Source und hat keine kommerziellen Pläne. Das Repository ist verfügbar unter https://github.com/itigges22/ATLAS. Der Entwickler merkt an, dass die Reproduzierbarkeit noch verbessert werden muss, schlägt aber vor, dass "es gut funktionieren sollte, wenn Sie Claude Code bitten, es für Ihr Setup zu optimieren".

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

🦀
Werkzeuge

Zusammenarbeiten: Eine Claude-Code-Fähigkeit für strukturiertes, asynchrones Dokumentenschreiben mit Multi-Agent-Übergaben

Eine Claude Code-Fähigkeit namens ‚collaborate‘ ermöglicht das Schreiben von Dokumenten mit mehreren Mitwirkenden, wobei jeder Teilnehmer eine verständliche Zusammenfassung von Claude über vorherige Änderungen, die zugrundeliegenden Überlegungen und die nächsten Aufgaben erhält, mit Unterstützung für parallele Abschnitte, strukturierte Kritik und Slack-/Signal-Benachrichtigungen.

OpenClawRadar
Eden AI: Europäischer API-Hub für KI-Modelle – Positioniert sich als OpenRouter-Alternative
Werkzeuge

Eden AI: Europäischer API-Hub für KI-Modelle – Positioniert sich als OpenRouter-Alternative

Eden AI bietet eine einzige, einheitliche API, um auf über 500 KI-Modelle (LLMs, Bildverarbeitung, OCR, Sprache) zuzugreifen – mit intelligentem Routing, Fallback-Mechanismen und Regionskontrolle. Positioniert als europäische Alternative zu OpenRouter.

OpenClawRadar
nervx: CLI-Tool reduziert Claude Code Token-Verbrauch durch Analyse der Codebasis-Struktur
Werkzeuge

nervx: CLI-Tool reduziert Claude Code Token-Verbrauch durch Analyse der Codebasis-Struktur

nervx ist ein über pip installierbares CLI-Tool, das Repositories mit tree-sitter parst, einen SQLite-Graphen von Funktionen und Imports erstellt und eine NERVX.md-Strukturkarte generiert. Es fügt automatisch Anweisungen zu CLAUDE.md hinzu, die Claude beibringen, die nervx-Navigation zu nutzen, wodurch in Tests grep-Suchen um 65% und Ausgabetokens um 48% reduziert wurden.

OpenClawRadar
AutoProber: KI-gesteuerte Flugsonde-Automatisierung für Hardware-Hacking
Werkzeuge

AutoProber: KI-gesteuerte Flugsonde-Automatisierung für Hardware-Hacking

AutoProber ist ein Automatisierungs-Stack für fliegende Prüfköpfe für Hardware-Hacker, der KI-Agenten ermöglicht, Ziele zu entdecken, Mikroskopbilder zu kartieren, sicherheitsüberwachte CNC-Bewegungen durchzuführen, Prüfungen zu überprüfen und kontrollierte Pin-Prüfungen durchzuführen. Es umfasst Python-Steuerungscode, ein Web-Dashboard, CAD-Dateien und arbeitet mit GRBL-CNC-Controllern, USB-Mikroskopen und Oszilloskop-Sicherheitsüberwachung.

OpenClawRadar