スチールマン R5: 微調整された14BモデルがAdaコード生成でClaude Opusを上回る

モデルとトレーニング詳細
Steelman R5モデルは、Adaコード生成に特化して最適化されたQwen2.5-Coder-14B-Instructのファインチューニング版です。トレーニングでは、すべてのトレーニング例がgnatmake -gnat2022 -gnatwaコンパイルを通過する3,430のAda/SPARK命令ペアのデータセットを使用し、UnslothによるQLoRA 4-bitとTRL SFTTrainerを採用しました。
トレーニング設定:LoRAランク32、アルファ64、q/k/v/o/gate/up/down射影をターゲット。モデルは各ラウンドでベースから完全に再トレーニングされました(アダプター継続はR2で破滅的忘却を引き起こしました)。トレーニングは1エポック、学習率2e-5、一定スケジュールで実行され、レンタルH100でラウンドあたり約49分かかりました。合計5ラウンド(R1–R5)、R2は破棄されました。
ベンチマーク結果
カスタムAdaコンパイルベンチマーク(1,000プロンプト、初回クリーンコンパイル):
- Steelman R5(14B):68.6%コンパイル率
- Claude Opus 4.6:42.1%コンパイル率
- Claude Sonnet 4.6:37.2%コンパイル率
- Qwen2.5-Coder-14B(ベース、未調整):約35%コンパイル率
- Claude Sonnet 4:27.5%コンパイル率
MultiPL-E HumanEval-Ada(157問題、pass@1):
- Steelman R5:47.1% pass@1、74.5%コンパイル率
- Qwen2.5-Coder-14B(ベース):34.4% pass@1、51.0%コンパイル率
これらは、オープンモデルにおけるHumanEvalのAda pass@1結果として初めて公開されたものです。
使用方法と入手可能性
モデルを実行するには:ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
GGUF版はQ4_K_M量子化で12GB VRAMに収まります。
制限事項
- コンパイル≠正確性:68.6%がコンパイルされますが、HumanEvalで正しい出力を生成するのは47.1%のみです
- エラー修正能力は弱い(5.1%)- Adaコードのデバッグを期待しないでください
- SPARK契約はコンパイルされますが、gnatproveで検証されていません
- 合成生成されたトレーニングデータ - 人間のAda開発者がこれらの例を作成したわけではありません
- 14Bモデルサイズのため、より大きなモデルが捕捉するものを逃す可能性があります
リソース
- モデル:https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF:https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- データセット:https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 Read the full source: r/LocalLLaMA
👀 See Also

OCTO-VEC:24体のAIエージェントを擁するオープンソースの仮想ソフトウェア企業
OCTO-VECは、9つのデフォルトAIエージェントと15人の雇用可能なスペシャリストを備えたソフトウェア会社をシミュレートするオープンソースのTypeScript/SQLiteプロジェクトです。自動化されたセキュリティスキャン、エージェントごとのgitアイデンティティ、22以上のLLMプロバイダーへの対応を含みます。

OpusへのアップグレードでLLMコストを削減したMendralの方法:トリアージャーパターン、SQLアクセス、サブエージェントアーキテクチャ
MendralはCI障害分析のためにSonnetからOpus 4.6に切り替えたが、Haikuトリアージャーを使って障害の80%を振り分け、ログをプッシュする代わりにエージェントにClickHouseへのSQLアクセスを提供し、実際の調査に安価なサブエージェントを起動することでコストを削減した。

クラウと話そう:OpenClaw Telegramボット向けオープンソースiOS音声インターフェース
OpenClawを搭載したTelegramボットと音声で対話できるオープンソースのiOSアプリです。このアプリは音声をローカルのMacサーバーに送信して処理し、応答をテキストと音声の両方で返します。

Claude-Code v2.1.63では、HTTPフック、スラッシュコマンドの追加、およびメモリリークの修正が行われました。
Claude-Code v2.1.63では、JSONベースの外部呼び出しのためのHTTPフックを導入し、/simplifyおよび/batchスラッシュコマンドを追加し、長時間実行セッションにおける複数のメモリリークを修正しました。このリリースでは、MCPサーバーの処理とVSCode統合も改善されています。