Стальной человек R5: Дообученная модель на 14 миллиардов параметров превосходит Claude Opus в генерации кода Ada.

✍️ OpenClawRadar📅 Опубликовано: 13 марта 2026 г.🔗 Source
Стальной человек R5: Дообученная модель на 14 миллиардов параметров превосходит Claude Opus в генерации кода Ada.
Ad

Детали модели и обучения

Модель Steelman R5 — это дообученная версия Qwen2.5-Coder-14B-Instruct, специально оптимизированная для генерации кода на Ada. Обучение проводилось с помощью QLoRA 4-битного квантования через Unsloth с использованием TRL SFTTrainer на наборе из 3 430 пар инструкций Ada/SPARK, где каждый пример обучения успешно компилируется командой gnatmake -gnat2022 -gnatwa.

Конфигурация обучения: ранг LoRA 32, альфа 64, нацелена на проекции q/k/v/o/gate/up/down. Модель полностью переобучалась с нуля в каждом раунде на накопленном наборе данных (продолжение адаптера вызывало катастрофическое забывание на R2). Обучение длилось 1 эпоху со скоростью обучения 2e-5, постоянным расписанием, занимая около 49 минут за раунд на арендованном H100. Всего пять раундов (R1–R5), причём R2 был отброшен.

Результаты тестирования

Пользовательский тест компиляции Ada (1 000 промптов, первая попытка чистой компиляции):

  • Steelman R5 (14B): 68,6% успешных компиляций
  • Claude Opus 4.6: 42,1% успешных компиляций
  • Claude Sonnet 4.6: 37,2% успешных компиляций
  • Qwen2.5-Coder-14B (базовая, без дообучения): ~35% успешных компиляций
  • Claude Sonnet 4: 27,5% успешных компиляций

MultiPL-E HumanEval-Ada (157 задач, pass@1):

  • Steelman R5: 47,1% pass@1, 74,5% успешных компиляций
  • Qwen2.5-Coder-14B (базовая): 34,4% pass@1, 51,0% успешных компиляций

Это первые опубликованные результаты pass@1 для Ada на HumanEval для любой открытой модели.

Ad

Использование и доступность

Запустите модель командой: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

Версия GGUF занимает 12 ГБ видеопамяти при квантовании Q4_K_M.

Ограничения

  • Компиляция ≠ корректность: 68,6% компилируется, но только 47,1% даёт правильный вывод на HumanEval
  • Способность исправлять ошибки слабая (5,1%) — не ожидайте, что модель будет отлаживать код на Ada
  • Контракты SPARK компилируются, но не проверяются с помощью gnatprove
  • Синтетически сгенерированные данные обучения — ни один разработчик на Ada не писал эти примеры
  • Размер модели 14B означает, что она может упускать то, что заметила бы более крупная модель

Ресурсы

  • Модель: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
  • GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
  • Набор данных: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Claude Code добавляет систему проверки на основе команд агентов в режиме предварительного просмотра для исследований.
Инструменты

Claude Code добавляет систему проверки на основе команд агентов в режиме предварительного просмотра для исследований.

Claude Code теперь включает тщательную систему проверки кода, смоделированную по внутреннему процессу Anthropic, с использованием команд агентов. Функция доступна в режиме исследовательского предварительного просмотра.

OpenClawRadar
Аппаратный виджет и расширение для Chrome отслеживают лимиты запросов к API Claude.
Инструменты

Аппаратный виджет и расширение для Chrome отслеживают лимиты запросов к API Claude.

Разработчик создал аппаратный виджет на базе ESP8266 и OLED-дисплея, который отслеживает лимиты запросов Claude в реальном времени, а также расширение для Chrome, перехватывающее внутренний API /usage Claude и показывающее паттерны использования. Общая стоимость компонентов составляет примерно $6.50.

OpenClawRadar
Тег Claude: @Claude в Slack для многопользовательского сотрудничества с ИИ
Инструменты

Тег Claude: @Claude в Slack для многопользовательского сотрудничества с ИИ

Anthropic запускает Claude Tag в Slack — отмечайте @Claude в каналах, давайте ему инструменты и делегируйте асинхронные задачи. Теперь 65% кода команды продукта создается с помощью Claude.

OpenClawRadar
Тонкая настройка Qwen 14B для автозаполнения в Discord
Инструменты

Тонкая настройка Qwen 14B для автозаполнения в Discord

Разработчик настроил модель Qwen 14B, используя набор данных сообщений из Discord, чтобы создать инструмент автозаполнения.

OpenClawRadar