Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles

Qu'est-ce que Leanstral
Leanstral est un agent de code open-source spécifiquement conçu pour Lean 4, un assistant de preuve capable d'exprimer des objets mathématiques complexes et des spécifications logicielles. Contrairement aux systèmes de preuve existants qui agissent comme des enveloppes autour de grands modèles généralistes, Leanstral est entraîné pour fonctionner dans des dépôts formels réalistes avec 6 milliards de paramètres actifs.
Détails techniques clés
Le modèle utilise une architecture très éparse optimisée pour les tâches d'ingénierie de preuve. Il exploite l'inférence parallèle avec Lean comme vérificateur, le rendant à la fois performant et économique. Leanstral prend en charge des MCP arbitraires via Mistral Vibe et a été spécifiquement entraîné pour atteindre des performances maximales avec le lean-lsp-mcp fréquemment utilisé.
Benchmarks de performance
Leanstral a été évalué en utilisant FLTEval, une nouvelle suite d'évaluation axée sur des scénarios réalistes d'ingénierie de preuve plutôt que sur des problèmes mathématiques isolés. Les benchmarks comparent l'achèvement de preuves formelles et la définition correcte de nouveaux concepts mathématiques dans les PR du projet FLT.
Par rapport aux modèles open-source
- Leanstral-120B-A6B atteint un score de 26,3 avec pass@2 (2 passes d'inférence)
- GLM5-744B-A40B plafonne à environ 16,6
- Kimi-K2.5-1T-32B plafonne à environ 20,1
- Qwen3.5-397B-A17B nécessite 4 passes pour atteindre 25,4
- Leanstral évolue linéairement, atteignant 29,3 à pass@4 et 31,9 à pass@16
Par rapport à la famille Claude
- Leanstral pass@2 (score 26,3) bat Sonnet (23,7) de 2,6 points
- Coût : Leanstral 36 $ contre Sonnet 549 $
- Leanstral pass@16 atteint 31,9, battant Sonnet de 8 points
- Claude Opus 4,6 mène avec 39,6 mais coûte 1 650 $ (92× le coût de Leanstral)
- Haiku obtient 23,0 à 184 $
Exemple d'étude de cas
Face à une question réelle de Proof Assistants Stack Exchange concernant un script qui a cessé de compiler dans Lean 4.29.0-rc6, Leanstral a réussi à construire un code de test pour recréer l'environnement défaillant. Il a diagnostiqué qu'un def T2 := List Bool bloquait la tactique rw pour faire correspondre les motifs en raison de problèmes d'égalité définitionnelle. La correction proposée était de remplacer def par abbrev, car abbrev crée un alias transparent.
Disponibilité
Les poids de Leanstral sont publiés sous licence Apache 2.0, disponibles en mode agent dans Mistral Vibe et via un point de terminaison API gratuit. Un rapport technique détaillant l'approche d'entraînement sera également publié.
📖 Read the full source: HN AI Agents
👀 See Also
TextGen (text-generation-webui) devient une application de bureau native avec des builds portables
TextGen, l'alternative open source à LM Studio, est passé d'une interface web à une application de bureau sans installation pour Windows, Linux et macOS avec des versions portables, une confidentialité totale et une prise en charge avancée de la quantification.

ClawHost Open-Source OpenClaw Déploiement en un Clic Atteint 200+ Étoiles sur GitHub
ClawHost, un outil open-source pour l'installation en un clic d'OpenClaw avec un accès et un contrôle complets du serveur, a atteint plus de 200 étoiles sur GitHub. Le projet résout les problèmes liés aux enveloppes commerciales instables en proposant une solution gratuite et auto-hébergeable.

First-Tree : un daemon open source qui utilise Claude Code pour trier les notifications GitHub pendant que vous dormez
Un démon open-source dans la barre de menus qui utilise Claude Code pour trier automatiquement les notifications GitHub – il a traité 98 notifications sur 100 lors d'un récent scan, n'en laissant que 2 pour révision humaine.

Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %
code-graph-mcp est un serveur MCP qui indexe les bases de code dans un graphe de connaissances AST, remplaçant de multiples appels grep/read par des requêtes structurées uniques. Le développeur rapporte des économies de 40 à 60 % sur les tokens de session totale et 80 % d'appels d'outils en moins par tâche de navigation.