Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada

Detalles del Modelo y Entrenamiento
El modelo Steelman R5 es una versión ajustada de Qwen2.5-Coder-14B-Instruct específicamente optimizada para la generación de código Ada. El entrenamiento utilizó QLoRA de 4 bits a través de Unsloth con TRL SFTTrainer en un conjunto de datos de 3,430 pares de instrucciones Ada/SPARK donde cada ejemplo de entrenamiento pasa la compilación con gnatmake -gnat2022 -gnatwa.
Configuración del entrenamiento: rango LoRA 32, alfa 64, dirigido a las proyecciones q/k/v/o/gate/up/down. El modelo se reentrenó completamente desde la base en cada ronda con el conjunto de datos acumulado (la continuación del adaptador causó olvido catastrófico en R2). El entrenamiento se ejecutó durante 1 época con una tasa de aprendizaje de 2e-5, programación constante, tomando aproximadamente 49 minutos por ronda en un H100 alquilado. Cinco rondas en total (R1–R5), descartando R2.
Resultados de Evaluación
Evaluación Personalizada de Compilación Ada (1,000 solicitudes, primera compilación limpia):
- Steelman R5 (14B): 68.6% tasa de compilación
- Claude Opus 4.6: 42.1% tasa de compilación
- Claude Sonnet 4.6: 37.2% tasa de compilación
- Qwen2.5-Coder-14B (base, sin ajustar): ~35% tasa de compilación
- Claude Sonnet 4: 27.5% tasa de compilación
MultiPL-E HumanEval-Ada (157 problemas, pass@1):
- Steelman R5: 47.1% pass@1, 74.5% tasa de compilación
- Qwen2.5-Coder-14B (base): 34.4% pass@1, 51.0% tasa de compilación
Estos son los primeros resultados publicados de pass@1 en Ada para HumanEval de cualquier modelo abierto.
Uso y Disponibilidad
Ejecuta el modelo con: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
La versión GGUF cabe en 12GB de VRAM con cuantización Q4_K_M.
Limitaciones
- Compilación ≠ corrección: 68.6% compila, pero solo 47.1% produce salida correcta en HumanEval
- La capacidad de corrección de errores es débil (5.1%) - no esperes que depure código Ada
- Los contratos SPARK se compilan pero no se verifican con gnatprove
- Datos de entrenamiento generados sintéticamente - ningún desarrollador humano de Ada escribió estos ejemplos
- El tamaño del modelo de 14B significa que puede pasar por alto cosas que un modelo más grande detectaría
Recursos
- Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- Conjunto de datos: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Autoencoders de Lenguaje Natural: Convirtiendo Representaciones Internas de Claude en Texto
Transformer Circuits Thread publica Natural Language Autoencoders que decodifican las activaciones internas de Claude en texto legible. Repositorio de GitHub y demo interactiva disponibles.
Zillow-Full: Una Habilidad de OpenClaw que Transformó la Investigación Manual de Propiedades en un Pipeline Automatizado de Ofertas
Un desarrollador creó 'zillow-full' en OpenClaw para obtener Zestimates, historial de impuestos, historial de precios y comparables por propiedad. Con un cron nocturno que puntúa listados según criterios de oferta, los acuerdos al por mayor pasaron de 2 a 11 por mes.

Oh-My-Mermaid: Habilidad de Código Claude para Generar Automáticamente Diagramas de Arquitectura
Oh-My-Mermaid es una habilidad de Claude Code que analiza bases de código y genera automáticamente diagramas de arquitectura Mermaid y documentación. Se instala mediante npm y se usa con el comando /omm-scan en Claude Code.

Foreman: Bot de Slack de Código Abierto para el Control Remoto del Código Local de Claude
Foreman es un bot de Slack gratuito y de código abierto que proporciona control remoto para instancias locales de Claude Code. Permite a los desarrolladores enviar tareas a Claude desde su teléfono mientras mantienen acceso completo local al sistema de archivos, herramientas y entorno.