Steelman R5: 14B-Modell übertrifft Claude Opus um 63 % bei Ada-Code

Modell- und Trainingsdetails

Das Steelman-R5-Modell ist eine feinabgestimmte Version von Qwen2.5-Coder-14B-Instruct, die speziell für die Ada-Codegenerierung optimiert wurde. Das Training nutzte QLoRA 4-Bit über Unsloth mit TRL SFTTrainer auf einem Datensatz von 3.430 Ada/SPARK-Instruktionspaaren, wobei jedes Trainingsbeispiel die Kompilierung mit gnatmake -gnat2022 -gnatwa bestand.

Trainingskonfiguration: LoRA-Rang 32, Alpha 64, Zielprojektionen q/k/v/o/gate/up/down. Das Modell wurde in jeder Runde vollständig von der Basis aus auf dem akkumulierten Datensatz neu trainiert (Adapterfortsetzung verursachte katastrophales Vergessen bei R2). Das Training lief für 1 Epoche mit einer Lernrate von 2e-5 und konstantem Zeitplan und dauerte etwa 49 Minuten pro Runde auf einer gemieteten H100. Insgesamt fünf Runden (R1–R5), wobei R2 verworfen wurde.

Benchmark-Ergebnisse

Benutzerdefinierter Ada-Kompilierungs-Benchmark (1.000 Prompts, erstmalige saubere Kompilierung):

Steelman R5 (14B): 68,6 % Kompilierungsrate
Claude Opus 4.6: 42,1 % Kompilierungsrate
Claude Sonnet 4.6: 37,2 % Kompilierungsrate
Qwen2.5-Coder-14B (Basis, nicht abgestimmt): ~35 % Kompilierungsrate
Claude Sonnet 4: 27,5 % Kompilierungsrate

MultiPL-E HumanEval-Ada (157 Probleme, pass@1):

Steelman R5: 47,1 % pass@1, 74,5 % Kompilierungsrate
Qwen2.5-Coder-14B (Basis): 34,4 % pass@1, 51,0 % Kompilierungsrate

Dies sind die ersten veröffentlichten Ada-pass@1-Ergebnisse auf HumanEval für ein Open-Source-Modell.

Verwendung und Verfügbarkeit

Führen Sie das Modell aus mit: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

Die GGUF-Version benötigt mit Q4_K_M-Quantisierung 12 GB VRAM.

Einschränkungen

Kompilierung ≠ Korrektheit: 68,6 % kompilieren, aber nur 47,1 % erzeugen korrekte Ausgaben auf HumanEval
Fehlerbehebungsfähigkeit ist schwach (5,1 %) – erwarten Sie nicht, dass es Ada-Code debuggen kann
SPARK-Verträge kompilieren, werden aber nicht mit gnatprove verifiziert
Synthetisch generierte Trainingsdaten – keine menschlichen Ada-Entwickler haben diese Beispiele geschrieben
14B-Modellgröße bedeutet, dass es Dinge übersehen könnte, die ein größeres Modell erfassen würde