Steelman R5: Modelo 14B Supera a Claude Opus en Código Ada

Detalles del Modelo y Entrenamiento

El modelo Steelman R5 es una versión ajustada de Qwen2.5-Coder-14B-Instruct específicamente optimizada para la generación de código Ada. El entrenamiento utilizó QLoRA de 4 bits a través de Unsloth con TRL SFTTrainer en un conjunto de datos de 3,430 pares de instrucciones Ada/SPARK donde cada ejemplo de entrenamiento pasa la compilación con gnatmake -gnat2022 -gnatwa.

Configuración del entrenamiento: rango LoRA 32, alfa 64, dirigido a las proyecciones q/k/v/o/gate/up/down. El modelo se reentrenó completamente desde la base en cada ronda con el conjunto de datos acumulado (la continuación del adaptador causó olvido catastrófico en R2). El entrenamiento se ejecutó durante 1 época con una tasa de aprendizaje de 2e-5, programación constante, tomando aproximadamente 49 minutos por ronda en un H100 alquilado. Cinco rondas en total (R1–R5), descartando R2.

Resultados de Evaluación

Evaluación Personalizada de Compilación Ada (1,000 solicitudes, primera compilación limpia):

Steelman R5 (14B): 68.6% tasa de compilación
Claude Opus 4.6: 42.1% tasa de compilación
Claude Sonnet 4.6: 37.2% tasa de compilación
Qwen2.5-Coder-14B (base, sin ajustar): ~35% tasa de compilación
Claude Sonnet 4: 27.5% tasa de compilación

MultiPL-E HumanEval-Ada (157 problemas, pass@1):

Steelman R5: 47.1% pass@1, 74.5% tasa de compilación
Qwen2.5-Coder-14B (base): 34.4% pass@1, 51.0% tasa de compilación

Estos son los primeros resultados publicados de pass@1 en Ada para HumanEval de cualquier modelo abierto.

Uso y Disponibilidad

Ejecuta el modelo con: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

La versión GGUF cabe en 12GB de VRAM con cuantización Q4_K_M.

Limitaciones

Compilación ≠ corrección: 68.6% compila, pero solo 47.1% produce salida correcta en HumanEval
La capacidad de corrección de errores es débil (5.1%) - no esperes que depure código Ada
Los contratos SPARK se compilan pero no se verifican con gnatprove
Datos de entrenamiento generados sintéticamente - ningún desarrollador humano de Ada escribió estos ejemplos
El tamaño del modelo de 14B significa que puede pasar por alto cosas que un modelo más grande detectaría

Recursos

Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
Conjunto de datos: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada

Detalles del Modelo y Entrenamiento

Resultados de Evaluación

Uso y Disponibilidad

Limitaciones

Recursos

👀 Ver también

Autoencoders de Lenguaje Natural: Convirtiendo Representaciones Internas de Claude en Texto

Zillow-Full: Una Habilidad de OpenClaw que Transformó la Investigación Manual de Propiedades en un Pipeline Automatizado de Ofertas

Oh-My-Mermaid: Habilidad de Código Claude para Generar Automáticamente Diagramas de Arquitectura

Foreman: Bot de Slack de Código Abierto para el Control Remoto del Código Local de Claude