Steelman R5: Modelo 14B Supera Claude Opus em Código Ada

Detalhes do Modelo e Treinamento

O modelo Steelman R5 é uma versão ajustada do Qwen2.5-Coder-14B-Instruct especificamente otimizada para geração de código Ada. O treinamento utilizou QLoRA 4-bit via Unsloth com TRL SFTTrainer em um conjunto de dados de 3.430 pares de instruções Ada/SPARK, onde cada exemplo de treinamento passa pela compilação gnatmake -gnat2022 -gnatwa.

Configuração do treinamento: LoRA rank 32, alpha 64, visando projeções q/k/v/o/gate/up/down. O modelo foi totalmente retreinado a partir da base a cada rodada no conjunto de dados acumulado (a continuação do adaptador causou esquecimento catastrófico na R2). O treinamento rodou por 1 época com taxa de aprendizado 2e-5, programação constante, levando cerca de 49 minutos por rodada em um H100 alugado. Cinco rodadas no total (R1–R5), com R2 descartada.

Resultados do Benchmark

Benchmark Personalizado de Compilação Ada (1.000 prompts, primeira tentativa de compilação limpa):

Steelman R5 (14B): 68,6% taxa de compilação
Claude Opus 4.6: 42,1% taxa de compilação
Claude Sonnet 4.6: 37,2% taxa de compilação
Qwen2.5-Coder-14B (base, não ajustado): ~35% taxa de compilação
Claude Sonnet 4: 27,5% taxa de compilação

MultiPL-E HumanEval-Ada (157 problemas, pass@1):

Steelman R5: 47,1% pass@1, 74,5% taxa de compilação
Qwen2.5-Coder-14B (base): 34,4% pass@1, 51,0% taxa de compilação

Estes são os primeiros resultados pass@1 em Ada no HumanEval publicados para qualquer modelo aberto.

Uso e Disponibilidade

Execute o modelo com: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

A versão GGUF cabe em 12GB de VRAM com quantização Q4_K_M.

Limitações

Compilação ≠ correção: 68,6% compilam, mas apenas 47,1% produzem saída correta no HumanEval
A capacidade de correção de erros é fraca (5,1%) - não espere que ele depure código Ada
Contratos SPARK compilam, mas não são verificados com gnatprove
Dados de treinamento gerados sinteticamente - nenhum desenvolvedor humano de Ada escreveu esses exemplos
Tamanho do modelo 14B significa que ele pode perder coisas que um modelo maior capturaria

Recursos

Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
Conjunto de dados: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA