Steelman R5: Modelo de 14B Ajustado Supera o Claude Opus na Geração de Código Ada

Detalhes do Modelo e Treinamento
O modelo Steelman R5 é uma versão ajustada do Qwen2.5-Coder-14B-Instruct especificamente otimizada para geração de código Ada. O treinamento utilizou QLoRA 4-bit via Unsloth com TRL SFTTrainer em um conjunto de dados de 3.430 pares de instruções Ada/SPARK, onde cada exemplo de treinamento passa pela compilação gnatmake -gnat2022 -gnatwa.
Configuração do treinamento: LoRA rank 32, alpha 64, visando projeções q/k/v/o/gate/up/down. O modelo foi totalmente retreinado a partir da base a cada rodada no conjunto de dados acumulado (a continuação do adaptador causou esquecimento catastrófico na R2). O treinamento rodou por 1 época com taxa de aprendizado 2e-5, programação constante, levando cerca de 49 minutos por rodada em um H100 alugado. Cinco rodadas no total (R1–R5), com R2 descartada.
Resultados do Benchmark
Benchmark Personalizado de Compilação Ada (1.000 prompts, primeira tentativa de compilação limpa):
- Steelman R5 (14B): 68,6% taxa de compilação
- Claude Opus 4.6: 42,1% taxa de compilação
- Claude Sonnet 4.6: 37,2% taxa de compilação
- Qwen2.5-Coder-14B (base, não ajustado): ~35% taxa de compilação
- Claude Sonnet 4: 27,5% taxa de compilação
MultiPL-E HumanEval-Ada (157 problemas, pass@1):
- Steelman R5: 47,1% pass@1, 74,5% taxa de compilação
- Qwen2.5-Coder-14B (base): 34,4% pass@1, 51,0% taxa de compilação
Estes são os primeiros resultados pass@1 em Ada no HumanEval publicados para qualquer modelo aberto.
Uso e Disponibilidade
Execute o modelo com: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
A versão GGUF cabe em 12GB de VRAM com quantização Q4_K_M.
Limitações
- Compilação ≠ correção: 68,6% compilam, mas apenas 47,1% produzem saída correta no HumanEval
- A capacidade de correção de erros é fraca (5,1%) - não espere que ele depure código Ada
- Contratos SPARK compilam, mas não são verificados com gnatprove
- Dados de treinamento gerados sinteticamente - nenhum desenvolvedor humano de Ada escreveu esses exemplos
- Tamanho do modelo 14B significa que ele pode perder coisas que um modelo maior capturaria
Recursos
- Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- Conjunto de dados: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 Read the full source: r/LocalLLaMA
👀 See Also

Usando o pre-commit para melhorar a qualidade e a segurança do código gerado por IA
Um desenvolvedor compartilha sua configuração de pre-commit para projetos Go e Java, usando ferramentas como golangci-lint, govulncheck e checkov para detectar vulnerabilidades e problemas de qualidade em código gerado por IA antes do commit.

Detectando Falhas Silenciosas de Ferramentas em Agentes de Codificação de IA com Vibeyard
Vibeyard é uma ferramenta que detecta quando agentes de codificação com IA experimentam falhas silenciosas de ferramentas — situações em que os agentes recorrem a estratégias alternativas sem alertar os desenvolvedores — e expõe essas ineficiências durante as sessões. Ela pode sugerir correções para evitar fluxos de trabalho ineficientes repetidos.

Widget de hardware e extensão do Chrome monitoram limites de taxa da API Claude
Um desenvolvedor criou um widget de hardware e uma extensão do Chrome combinados para monitorar os limites de taxa da API do Claude em tempo real, eliminando a necessidade de depender das notificações de banner de limite de taxa do Claude.

O Protocolo AVP Permite que Agentes LLM Compartilhem o Cache KV em vez de Texto para Eficiência de Tokens
AVP (Protocolo de Vetor de Agente) permite que agentes LLM passem o cache KV diretamente entre eles em vez de texto, reduzindo o processamento de tokens em 73-78% e alcançando acelerações de 2-4x nos modelos Qwen, Llama e DeepSeek. O protocolo funciona com conectores HuggingFace e vLLM e está disponível como um pacote Python.