Steelman R5: Feinabgestimmtes 14B-Modell übertrifft Claude Opus bei der Ada-Codegenerierung

Modell- und Trainingsdetails
Das Steelman-R5-Modell ist eine feinabgestimmte Version von Qwen2.5-Coder-14B-Instruct, die speziell für die Ada-Codegenerierung optimiert wurde. Das Training nutzte QLoRA 4-Bit über Unsloth mit TRL SFTTrainer auf einem Datensatz von 3.430 Ada/SPARK-Instruktionspaaren, wobei jedes Trainingsbeispiel die Kompilierung mit gnatmake -gnat2022 -gnatwa bestand.
Trainingskonfiguration: LoRA-Rang 32, Alpha 64, Zielprojektionen q/k/v/o/gate/up/down. Das Modell wurde in jeder Runde vollständig von der Basis aus auf dem akkumulierten Datensatz neu trainiert (Adapterfortsetzung verursachte katastrophales Vergessen bei R2). Das Training lief für 1 Epoche mit einer Lernrate von 2e-5 und konstantem Zeitplan und dauerte etwa 49 Minuten pro Runde auf einer gemieteten H100. Insgesamt fünf Runden (R1–R5), wobei R2 verworfen wurde.
Benchmark-Ergebnisse
Benutzerdefinierter Ada-Kompilierungs-Benchmark (1.000 Prompts, erstmalige saubere Kompilierung):
- Steelman R5 (14B): 68,6 % Kompilierungsrate
- Claude Opus 4.6: 42,1 % Kompilierungsrate
- Claude Sonnet 4.6: 37,2 % Kompilierungsrate
- Qwen2.5-Coder-14B (Basis, nicht abgestimmt): ~35 % Kompilierungsrate
- Claude Sonnet 4: 27,5 % Kompilierungsrate
MultiPL-E HumanEval-Ada (157 Probleme, pass@1):
- Steelman R5: 47,1 % pass@1, 74,5 % Kompilierungsrate
- Qwen2.5-Coder-14B (Basis): 34,4 % pass@1, 51,0 % Kompilierungsrate
Dies sind die ersten veröffentlichten Ada-pass@1-Ergebnisse auf HumanEval für ein Open-Source-Modell.
Verwendung und Verfügbarkeit
Führen Sie das Modell aus mit: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
Die GGUF-Version benötigt mit Q4_K_M-Quantisierung 12 GB VRAM.
Einschränkungen
- Kompilierung ≠ Korrektheit: 68,6 % kompilieren, aber nur 47,1 % erzeugen korrekte Ausgaben auf HumanEval
- Fehlerbehebungsfähigkeit ist schwach (5,1 %) – erwarten Sie nicht, dass es Ada-Code debuggen kann
- SPARK-Verträge kompilieren, werden aber nicht mit gnatprove verifiziert
- Synthetisch generierte Trainingsdaten – keine menschlichen Ada-Entwickler haben diese Beispiele geschrieben
- 14B-Modellgröße bedeutet, dass es Dinge übersehen könnte, die ein größeres Modell erfassen würde
Ressourcen
- Modell: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- Datensatz: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

MegaClaw: Containerisierte OpenClaw-Einrichtung mit Playwright und Homebrew
MegaClaw ist eine Zwei-Image-Podman-Einrichtung für OpenClaw, die häufige Installationsprobleme wie Berechtigungsfehler und fehlende Abhängigkeiten löst. Es verwendet einen Multi-Stage-Build mit vorinstalliertem Playwright und Homebrew und baut die Benutzerkonfiguration in ein Runtime-Image ein.

Throttle Meter: Open-Source Claude Code-Nutzungszähler für macOS
Open-Source macOS-Menüleisten-App, die lokale Claude Code-Logs liest, um Echtzeit-Nutzung der letzten 5 Stunden und wöchentliche Nutzung mit Schwellenwertbenachrichtigungen und Token-sparenden Hooks anzuzeigen. Hat auch einen €19 kommerziellen Ableger mit Exact-Modus (liest claude.ais interne API über Safari).

NPCterm: Vollständiger PTY-Terminal-Emulator für KI-Agenten über MCP
NPCterm bietet KI-Agenten vollen Terminalzugriff über einen headless, im Speicher laufenden PTY-Terminalemulator, der über MCP bereitgestellt wird. Es umfasst 15 MCP-Tools zur Terminalsteuerung, Prozesszustandserkennung und Unterstützung für TUI-Anwendungen.

Kostenloses AI-Produkt-Launch-Playbook-Repository für Claude-Benutzer
Ein Entwickler hat ein kostenloses Repository veröffentlicht, das ein strukturiertes AI-Produkt-Launch-Playbook enthält, das für die Zusammenarbeit mit Claude konzipiert ist. Das Repo organisiert Launch-Erfahrungen in praktische Phasen, einschließlich Strategie, Vorbereitung, Ausführung, und enthält Vorlagen und Werkzeugreferenzen.