スチールマン R5 vs Claude Opus: Adaコード生成ベンチマーク完全比較

モデルとトレーニング詳細

Steelman R5モデルは、Adaコード生成に特化して最適化されたQwen2.5-Coder-14B-Instructのファインチューニング版です。トレーニングでは、すべてのトレーニング例がgnatmake -gnat2022 -gnatwaコンパイルを通過する3,430のAda/SPARK命令ペアのデータセットを使用し、UnslothによるQLoRA 4-bitとTRL SFTTrainerを採用しました。

トレーニング設定：LoRAランク32、アルファ64、q/k/v/o/gate/up/down射影をターゲット。モデルは各ラウンドでベースから完全に再トレーニングされました（アダプター継続はR2で破滅的忘却を引き起こしました）。トレーニングは1エポック、学習率2e-5、一定スケジュールで実行され、レンタルH100でラウンドあたり約49分かかりました。合計5ラウンド（R1–R5）、R2は破棄されました。

ベンチマーク結果

カスタムAdaコンパイルベンチマーク（1,000プロンプト、初回クリーンコンパイル）：

Steelman R5（14B）：68.6%コンパイル率
Claude Opus 4.6：42.1%コンパイル率
Claude Sonnet 4.6：37.2%コンパイル率
Qwen2.5-Coder-14B（ベース、未調整）：約35%コンパイル率
Claude Sonnet 4：27.5%コンパイル率

MultiPL-E HumanEval-Ada（157問題、pass@1）：

Steelman R5：47.1% pass@1、74.5%コンパイル率
Qwen2.5-Coder-14B（ベース）：34.4% pass@1、51.0%コンパイル率

これらは、オープンモデルにおけるHumanEvalのAda pass@1結果として初めて公開されたものです。

使用方法と入手可能性

モデルを実行するには：ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

GGUF版はQ4_K_M量子化で12GB VRAMに収まります。

制限事項

コンパイル≠正確性：68.6%がコンパイルされますが、HumanEvalで正しい出力を生成するのは47.1%のみです
エラー修正能力は弱い（5.1%）- Adaコードのデバッグを期待しないでください
SPARK契約はコンパイルされますが、gnatproveで検証されていません
合成生成されたトレーニングデータ - 人間のAda開発者がこれらの例を作成したわけではありません
14Bモデルサイズのため、より大きなモデルが捕捉するものを逃す可能性があります

リソース

モデル：https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF：https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
データセット：https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 Read the full source: r/LocalLLaMA

スチールマン R5: 微調整された14BモデルがAdaコード生成でClaude Opusを上回る

モデルとトレーニング詳細

ベンチマーク結果

使用方法と入手可能性

制限事項

リソース

👀 See Also

OCTO-VEC：24体のAIエージェントを擁するオープンソースの仮想ソフトウェア企業

OpusへのアップグレードでLLMコストを削減したMendralの方法：トリアージャーパターン、SQLアクセス、サブエージェントアーキテクチャ

クラウと話そう：OpenClaw Telegramボット向けオープンソースiOS音声インターフェース

Claude-Code v2.1.63では、HTTPフック、スラッシュコマンドの追加、およびメモリリークの修正が行われました。