Steelman R5 : Le modèle 14B affiné surpasse Claude Opus pour la génération de code Ada

✍️ OpenClawRadar📅 Publié: March 13, 2026🔗 Source
Steelman R5 : Le modèle 14B affiné surpasse Claude Opus pour la génération de code Ada
Ad

Détails du modèle et de l'entraînement

Le modèle Steelman R5 est une version affinée de Qwen2.5-Coder-14B-Instruct spécifiquement optimisée pour la génération de code Ada. L'entraînement a utilisé QLoRA 4 bits via Unsloth avec TRL SFTTrainer sur un ensemble de données de 3 430 paires d'instructions Ada/SPARK où chaque exemple d'entraînement passe la compilation gnatmake -gnat2022 -gnatwa.

Configuration de l'entraînement : rang LoRA 32, alpha 64, ciblant les projections q/k/v/o/gate/up/down. Le modèle a été réentraîné complètement à partir de la base à chaque tour sur l'ensemble de données accumulé (la continuation de l'adaptateur a causé un oubli catastrophique au tour R2). L'entraînement a duré 1 époque avec un taux d'apprentissage de 2e-5, un calendrier constant, prenant environ 49 minutes par tour sur un H100 loué. Cinq tours au total (R1–R5), avec R2 écarté.

Résultats du benchmark

Benchmark de compilation Ada personnalisé (1 000 prompts, compilation propre au premier essai) :

  • Steelman R5 (14B) : taux de compilation de 68,6 %
  • Claude Opus 4.6 : taux de compilation de 42,1 %
  • Claude Sonnet 4.6 : taux de compilation de 37,2 %
  • Qwen2.5-Coder-14B (base, non affiné) : ~35 % de taux de compilation
  • Claude Sonnet 4 : taux de compilation de 27,5 %

MultiPL-E HumanEval-Ada (157 problèmes, pass@1) :

  • Steelman R5 : 47,1 % pass@1, taux de compilation de 74,5 %
  • Qwen2.5-Coder-14B (base) : 34,4 % pass@1, taux de compilation de 51,0 %

Ce sont les premiers résultats publiés de pass@1 sur HumanEval pour Ada pour un modèle ouvert.

Ad

Utilisation et disponibilité

Exécutez le modèle avec : ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

La version GGUF tient dans 12 Go de VRAM avec la quantification Q4_K_M.

Limitations

  • Compilation ≠ exactitude : 68,6 % de compilations, mais seulement 47,1 % produisent une sortie correcte sur HumanEval
  • La capacité de correction d'erreurs est faible (5,1 %) - ne vous attendez pas à ce qu'il débogue du code Ada
  • Les contrats SPARK se compilent mais ne sont pas vérifiés avec gnatprove
  • Données d'entraînement générées synthétiquement - aucun développeur Ada humain n'a écrit ces exemples
  • La taille du modèle de 14B signifie qu'il peut manquer des choses qu'un modèle plus grand capturerait

Ressources

  • Modèle : https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
  • GGUF : https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
  • Ensemble de données : https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

🦀
Tools

PullMD v2.4.1 ajoute un connecteur MCP natif pour claude.ai Web et l'authentification multi-utilisateur

PullMD v2.4.1 prend désormais en charge la boîte de dialogue de connecteur personnalisé de claude.ai via OAuth 2.1 + PKCE-S256 et ajoute des modes d'authentification multi-utilisateurs. Transformez n'importe quelle URL en Markdown propre via un MCP auto-hébergé.

OpenClawRadar
Cowork vs. Claude Chat : Comparaison de la précision d'extraction de documents
Tools

Cowork vs. Claude Chat : Comparaison de la précision d'extraction de documents

Un développeur a testé Claude.ai chat et Cowork pour extraire des données de PDF financiers de plus de 140 pages en utilisant des invites identiques. Chat a produit des résultats de qualité institutionnelle avec auto-correction et zéro erreur sur plus de 150 points de données, tandis que Cowork a fabriqué des postes de réconciliation, inversé des décomptes d'unités et présenté une contamination des colonnes de l'année précédente.

OpenClawRadar
Claudebin : Exportez et partagez vos sessions de code Claude
Tools

Claudebin : Exportez et partagez vos sessions de code Claude

Claudebin vous permet d'exporter des sessions entières de Claude Code, les rendant partageables et reprises via une seule URL.

OpenClawRadar
engram : plugin de mémoire Claude avec capture à seuil de saillance et cycles de rêve
Tools

engram : plugin de mémoire Claude avec capture à seuil de saillance et cycles de rêve

engram est un plugin de mémoire pour Claude qui filtre les observations au moment de la capture en utilisant 5 dimensions de saillance, ne conservant que les événements à score élevé dans SQLite sans appels LLM pour le scoring. Il propose une injection automatique via 5 crochets et des cycles de rêve qui extraient les workflows récurrents à la fin de la session.

OpenClawRadar