Стальной человек R5: Модель 14B превосходит Claude Opus в коде Ada

Детали модели и обучения

Модель Steelman R5 — это дообученная версия Qwen2.5-Coder-14B-Instruct, специально оптимизированная для генерации кода на Ada. Обучение проводилось с помощью QLoRA 4-битного квантования через Unsloth с использованием TRL SFTTrainer на наборе из 3 430 пар инструкций Ada/SPARK, где каждый пример обучения успешно компилируется командой gnatmake -gnat2022 -gnatwa.

Конфигурация обучения: ранг LoRA 32, альфа 64, нацелена на проекции q/k/v/o/gate/up/down. Модель полностью переобучалась с нуля в каждом раунде на накопленном наборе данных (продолжение адаптера вызывало катастрофическое забывание на R2). Обучение длилось 1 эпоху со скоростью обучения 2e-5, постоянным расписанием, занимая около 49 минут за раунд на арендованном H100. Всего пять раундов (R1–R5), причём R2 был отброшен.

Результаты тестирования

Пользовательский тест компиляции Ada (1 000 промптов, первая попытка чистой компиляции):

Steelman R5 (14B): 68,6% успешных компиляций
Claude Opus 4.6: 42,1% успешных компиляций
Claude Sonnet 4.6: 37,2% успешных компиляций
Qwen2.5-Coder-14B (базовая, без дообучения): ~35% успешных компиляций
Claude Sonnet 4: 27,5% успешных компиляций

MultiPL-E HumanEval-Ada (157 задач, pass@1):

Steelman R5: 47,1% pass@1, 74,5% успешных компиляций
Qwen2.5-Coder-14B (базовая): 34,4% pass@1, 51,0% успешных компиляций

Это первые опубликованные результаты pass@1 для Ada на HumanEval для любой открытой модели.

Использование и доступность

Запустите модель командой: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

Версия GGUF занимает 12 ГБ видеопамяти при квантовании Q4_K_M.

Ограничения

Компиляция ≠ корректность: 68,6% компилируется, но только 47,1% даёт правильный вывод на HumanEval
Способность исправлять ошибки слабая (5,1%) — не ожидайте, что модель будет отлаживать код на Ada
Контракты SPARK компилируются, но не проверяются с помощью gnatprove
Синтетически сгенерированные данные обучения — ни один разработчик на Ada не писал эти примеры
Размер модели 14B означает, что она может упускать то, что заметила бы более крупная модель

Ресурсы

Модель: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
Набор данных: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA