Leanstral:Lean 4と形式証明エンジニアリングのためのオープンソースコードエージェント

Leanstralとは
Leanstralは、複雑な数学的オブジェクトやソフトウェア仕様を表現できる証明支援システムであるLean 4向けに特別に設計されたオープンソースコードエージェントです。既存の証明システムが大規模な汎用モデルをラップする形で動作するのとは異なり、Leanstralは6Bのアクティブパラメータで現実的な形式リポジトリでの操作に特化して訓練されています。
主要な技術詳細
このモデルは、証明エンジニアリングタスクに最適化された高度に疎なアーキテクチャを採用しています。Leanを検証器として並列推論を活用することで、高性能かつコスト効率の良い動作を実現しています。LeanstralはMistral Vibeを通じて任意のMCPをサポートし、頻繁に使用されるlean-lsp-mcpで最大の性能を発揮するよう特別に訓練されています。
性能ベンチマーク
Leanstralは、孤立した数学的問題ではなく現実的な証明エンジニアリングシナリオに焦点を当てた新しい評価スイート「FLTEval」を使用して評価されました。このベンチマークでは、形式証明の完成度とFLTプロジェクトへのPRにおける新しい数学的概念の正しい定義について比較されています。
オープンソースモデルとの比較
- Leanstral-120B-A6Bはpass@2(2回の推論パス)で26.3のスコアを達成
- GLM5-744B-A40Bは約16.6で頭打ち
- Kimi-K2.5-1T-32Bは約20.1で頭打ち
- Qwen3.5-397B-A17Bは25.4に達するのに4パス必要
- Leanstralは線形にスケールし、pass@4で29.3、pass@16で31.9を達成
Claudeファミリーとの比較
- Leanstral pass@2(スコア26.3)はSonnet(23.7)を2.6ポイント上回る
- コスト:Leanstral $36 vs. Sonnet $549
- Leanstral pass@16は31.9に達し、Sonnetを8ポイント上回る
- Claude Opus 4.6は39.6でリードするが、$1,650(Leanstralの92倍のコスト)
- Haikuは$184で23.0のスコア
ケーススタディ例
Proof Assistants Stack Exchangeからの現実世界の質問(Lean 4.29.0-rc6でコンパイルが停止したスクリプトに関するもの)に対して、Leanstralは失敗環境を再現するテストコードを正常に構築しました。def T2 := List Boolが定義上の等価性の問題によりrwタクティックのパターンマッチングをブロックしていると診断し、abbrevが透過的なエイリアスを作成するため、defをabbrevに置き換える修正を提案しました。
利用可能性
Leanstralの重みはApache 2.0ライセンスでリリースされ、Mistral Vibe内のエージェントモードおよび無料APIエンドポイントを通じて利用可能です。訓練アプローチを詳細に説明する技術レポートも公開される予定です。
📖 Read the full source: HN AI Agents
👀 See Also

ClawWatcher、200ユーザー達成、OpenClaw APIによる総節約額は2万8千ドル以上と報告
OpenClaw APIコストをリアルタイムで追跡するツール「ClawWatcher」が200ユーザーに到達。開発者によると、ユーザーは合計28,000ドル以上のAPIコストを節約し、平均コスト削減率は45%に上る。

Claudeの自動プロジェクトスキャフォールディングのためのコードスキル
開発者がClaude Codeスキルを構築し、React、Next.js、Node.js API、Turborepoモノレポのコマンドでフルスタックプロジェクトのセットアップを自動化しました。このスキルは最新の依存関係を取得し、50以上の統合をサポートし、MITライセンスで提供されています。

ClaudeがWindowsのUNCパスバグを自らデバッグし、自社のMCPファイルシステムサーバーを修正
開発者がClaude Opusを使用して、Windows上のMCP Filesystem ServerでUNCネットワーク共有パスがサブディレクトリ操作で失敗するバグを診断し修正しました。この修正は、UNC共有内のファイルやフォルダへのアクセスを妨げていたパス検証の問題に対処します。

Claude TimeTrack: macOSメニューバーアプリで、Claude CodeのJSONLファイルを読み取り、プロジェクトごとの開発時間を自動追跡
オープンソースのmacOSメニューバーアプリ。Claude CodeのセッションJSONLファイルとgit履歴を解析し、プロジェクトごとの作業時間を自動追跡。手動タイマーは不要。