Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada

Detalles del Modelo y Entrenamiento
El modelo Steelman R5 es una versión ajustada de Qwen2.5-Coder-14B-Instruct específicamente optimizada para la generación de código Ada. El entrenamiento utilizó QLoRA de 4 bits a través de Unsloth con TRL SFTTrainer en un conjunto de datos de 3,430 pares de instrucciones Ada/SPARK donde cada ejemplo de entrenamiento pasa la compilación con gnatmake -gnat2022 -gnatwa.
Configuración del entrenamiento: rango LoRA 32, alfa 64, dirigido a las proyecciones q/k/v/o/gate/up/down. El modelo se reentrenó completamente desde la base en cada ronda con el conjunto de datos acumulado (la continuación del adaptador causó olvido catastrófico en R2). El entrenamiento se ejecutó durante 1 época con una tasa de aprendizaje de 2e-5, programación constante, tomando aproximadamente 49 minutos por ronda en un H100 alquilado. Cinco rondas en total (R1–R5), descartando R2.
Resultados de Evaluación
Evaluación Personalizada de Compilación Ada (1,000 solicitudes, primera compilación limpia):
- Steelman R5 (14B): 68.6% tasa de compilación
- Claude Opus 4.6: 42.1% tasa de compilación
- Claude Sonnet 4.6: 37.2% tasa de compilación
- Qwen2.5-Coder-14B (base, sin ajustar): ~35% tasa de compilación
- Claude Sonnet 4: 27.5% tasa de compilación
MultiPL-E HumanEval-Ada (157 problemas, pass@1):
- Steelman R5: 47.1% pass@1, 74.5% tasa de compilación
- Qwen2.5-Coder-14B (base): 34.4% pass@1, 51.0% tasa de compilación
Estos son los primeros resultados publicados de pass@1 en Ada para HumanEval de cualquier modelo abierto.
Uso y Disponibilidad
Ejecuta el modelo con: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
La versión GGUF cabe en 12GB de VRAM con cuantización Q4_K_M.
Limitaciones
- Compilación ≠ corrección: 68.6% compila, pero solo 47.1% produce salida correcta en HumanEval
- La capacidad de corrección de errores es débil (5.1%) - no esperes que depure código Ada
- Los contratos SPARK se compilan pero no se verifican con gnatprove
- Datos de entrenamiento generados sintéticamente - ningún desarrollador humano de Ada escribió estos ejemplos
- El tamaño del modelo de 14B significa que puede pasar por alto cosas que un modelo más grande detectaría
Recursos
- Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- Conjunto de datos: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 Read the full source: r/LocalLLaMA
👀 Ver también

El Marco de Scaffold Aborda los Problemas de Memoria de Código y Flujo de Trabajo de Claude
Scaffold es un marco de trabajo de 17 habilidades para Claude Code que proporciona memoria persistente, aplicación de decisiones y puertas de flujo de trabajo. Utiliza un sistema de enrutamiento de modelos de 3 niveles para ahorrar tokens y se puede instalar a través del menú de complementos de Claude Code.

Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes
El modelo gemma-4-26B-A4B alcanza aproximadamente 145 tokens por segundo en una RTX 4090 e incluye soporte MCP para búsqueda web y de imágenes en aplicaciones de chat. Una publicación de blog detalla la configuración y el uso multiplataforma en Mac e iPhone.

Tokenmeter: Aplicación gratuita de Windows para rastrear el uso de tokens de Claude Code sin conexión
Tokenmeter es una aplicación gratuita de código abierto para Windows que lee archivos locales .jsonl de Claude Code para mostrar el uso de tokens, costos estimados, ahorros en caché y un mapa de calor de actividad de 90 días, todo sin conexión.

Comparación de 14 Variantes del Agente de IA Claw en 10 Categorías
Una comparación detallada de 14 variantes populares de agentes de IA Claw, incluyendo OpenClaw, NanoClaw, NemoClaw, ZeroClaw, PicoClaw, Moltis, IronClaw y NullClaw, evaluadas a través de 53 subparámetros con clasificaciones compuestas y casos de uso ideales para cada una.