Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada

✍️ OpenClawRadar📅 Publicado: 13 de marzo de 2026🔗 Source
Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada
Ad

Detalles del Modelo y Entrenamiento

El modelo Steelman R5 es una versión ajustada de Qwen2.5-Coder-14B-Instruct específicamente optimizada para la generación de código Ada. El entrenamiento utilizó QLoRA de 4 bits a través de Unsloth con TRL SFTTrainer en un conjunto de datos de 3,430 pares de instrucciones Ada/SPARK donde cada ejemplo de entrenamiento pasa la compilación con gnatmake -gnat2022 -gnatwa.

Configuración del entrenamiento: rango LoRA 32, alfa 64, dirigido a las proyecciones q/k/v/o/gate/up/down. El modelo se reentrenó completamente desde la base en cada ronda con el conjunto de datos acumulado (la continuación del adaptador causó olvido catastrófico en R2). El entrenamiento se ejecutó durante 1 época con una tasa de aprendizaje de 2e-5, programación constante, tomando aproximadamente 49 minutos por ronda en un H100 alquilado. Cinco rondas en total (R1–R5), descartando R2.

Resultados de Evaluación

Evaluación Personalizada de Compilación Ada (1,000 solicitudes, primera compilación limpia):

  • Steelman R5 (14B): 68.6% tasa de compilación
  • Claude Opus 4.6: 42.1% tasa de compilación
  • Claude Sonnet 4.6: 37.2% tasa de compilación
  • Qwen2.5-Coder-14B (base, sin ajustar): ~35% tasa de compilación
  • Claude Sonnet 4: 27.5% tasa de compilación

MultiPL-E HumanEval-Ada (157 problemas, pass@1):

  • Steelman R5: 47.1% pass@1, 74.5% tasa de compilación
  • Qwen2.5-Coder-14B (base): 34.4% pass@1, 51.0% tasa de compilación

Estos son los primeros resultados publicados de pass@1 en Ada para HumanEval de cualquier modelo abierto.

Ad

Uso y Disponibilidad

Ejecuta el modelo con: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

La versión GGUF cabe en 12GB de VRAM con cuantización Q4_K_M.

Limitaciones

  • Compilación ≠ corrección: 68.6% compila, pero solo 47.1% produce salida correcta en HumanEval
  • La capacidad de corrección de errores es débil (5.1%) - no esperes que depure código Ada
  • Los contratos SPARK se compilan pero no se verifican con gnatprove
  • Datos de entrenamiento generados sintéticamente - ningún desarrollador humano de Ada escribió estos ejemplos
  • El tamaño del modelo de 14B significa que puede pasar por alto cosas que un modelo más grande detectaría

Recursos

  • Modelo: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
  • GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
  • Conjunto de datos: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

El Marco de Scaffold Aborda los Problemas de Memoria de Código y Flujo de Trabajo de Claude
Herramientas

El Marco de Scaffold Aborda los Problemas de Memoria de Código y Flujo de Trabajo de Claude

Scaffold es un marco de trabajo de 17 habilidades para Claude Code que proporciona memoria persistente, aplicación de decisiones y puertas de flujo de trabajo. Utiliza un sistema de enrutamiento de modelos de 3 niveles para ahorrar tokens y se puede instalar a través del menú de complementos de Claude Code.

OpenClawRadar
Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes
Herramientas

Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes

El modelo gemma-4-26B-A4B alcanza aproximadamente 145 tokens por segundo en una RTX 4090 e incluye soporte MCP para búsqueda web y de imágenes en aplicaciones de chat. Una publicación de blog detalla la configuración y el uso multiplataforma en Mac e iPhone.

OpenClawRadar
Tokenmeter: Aplicación gratuita de Windows para rastrear el uso de tokens de Claude Code sin conexión
Herramientas

Tokenmeter: Aplicación gratuita de Windows para rastrear el uso de tokens de Claude Code sin conexión

Tokenmeter es una aplicación gratuita de código abierto para Windows que lee archivos locales .jsonl de Claude Code para mostrar el uso de tokens, costos estimados, ahorros en caché y un mapa de calor de actividad de 90 días, todo sin conexión.

OpenClawRadar
Comparación de 14 Variantes del Agente de IA Claw en 10 Categorías
Herramientas

Comparación de 14 Variantes del Agente de IA Claw en 10 Categorías

Una comparación detallada de 14 variantes populares de agentes de IA Claw, incluyendo OpenClaw, NanoClaw, NemoClaw, ZeroClaw, PicoClaw, Moltis, IronClaw y NullClaw, evaluadas a través de 53 subparámetros con clasificaciones compuestas y casos de uso ideales para cada una.

OpenClawRadar