Steelman R5 14B : Génération Code Ada Passe Claude Opus

Détails du modèle et de l'entraînement

Le modèle Steelman R5 est une version affinée de Qwen2.5-Coder-14B-Instruct spécifiquement optimisée pour la génération de code Ada. L'entraînement a utilisé QLoRA 4 bits via Unsloth avec TRL SFTTrainer sur un ensemble de données de 3 430 paires d'instructions Ada/SPARK où chaque exemple d'entraînement passe la compilation gnatmake -gnat2022 -gnatwa.

Configuration de l'entraînement : rang LoRA 32, alpha 64, ciblant les projections q/k/v/o/gate/up/down. Le modèle a été réentraîné complètement à partir de la base à chaque tour sur l'ensemble de données accumulé (la continuation de l'adaptateur a causé un oubli catastrophique au tour R2). L'entraînement a duré 1 époque avec un taux d'apprentissage de 2e-5, un calendrier constant, prenant environ 49 minutes par tour sur un H100 loué. Cinq tours au total (R1–R5), avec R2 écarté.

Résultats du benchmark

Benchmark de compilation Ada personnalisé (1 000 prompts, compilation propre au premier essai) :

Steelman R5 (14B) : taux de compilation de 68,6 %
Claude Opus 4.6 : taux de compilation de 42,1 %
Claude Sonnet 4.6 : taux de compilation de 37,2 %
Qwen2.5-Coder-14B (base, non affiné) : ~35 % de taux de compilation
Claude Sonnet 4 : taux de compilation de 27,5 %

MultiPL-E HumanEval-Ada (157 problèmes, pass@1) :

Steelman R5 : 47,1 % pass@1, taux de compilation de 74,5 %
Qwen2.5-Coder-14B (base) : 34,4 % pass@1, taux de compilation de 51,0 %

Ce sont les premiers résultats publiés de pass@1 sur HumanEval pour Ada pour un modèle ouvert.

Utilisation et disponibilité

Exécutez le modèle avec : ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

La version GGUF tient dans 12 Go de VRAM avec la quantification Q4_K_M.

Limitations

Compilation ≠ exactitude : 68,6 % de compilations, mais seulement 47,1 % produisent une sortie correcte sur HumanEval
La capacité de correction d'erreurs est faible (5,1 %) - ne vous attendez pas à ce qu'il débogue du code Ada
Les contrats SPARK se compilent mais ne sont pas vérifiés avec gnatprove
Données d'entraînement générées synthétiquement - aucun développeur Ada humain n'a écrit ces exemples
La taille du modèle de 14B signifie qu'il peut manquer des choses qu'un modèle plus grand capturerait

Ressources

Modèle : https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF : https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
Ensemble de données : https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

Steelman R5 : Le modèle 14B affiné surpasse Claude Opus pour la génération de code Ada

Détails du modèle et de l'entraînement

Résultats du benchmark

Utilisation et disponibilité

Limitations

Ressources

👀 See Also

Exploration du sandbox-exec de macOS pour une exécution sécurisée des applications

Cognithor v0.40.0 ajoute une identité persistante aux agents IA avec des contraintes éthiques.

ai-codex : Pré-indexez votre base de code pour économiser des tokens Claude

Présentation d'Aionic Anthology : Un cadre pour structurer les tâches d'IA de Claude