Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles

✍️ OpenClawRadar📅 Publié: March 17, 2026🔗 Source
Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles
Ad

Qu'est-ce que Leanstral

Leanstral est un agent de code open-source spécifiquement conçu pour Lean 4, un assistant de preuve capable d'exprimer des objets mathématiques complexes et des spécifications logicielles. Contrairement aux systèmes de preuve existants qui agissent comme des enveloppes autour de grands modèles généralistes, Leanstral est entraîné pour fonctionner dans des dépôts formels réalistes avec 6 milliards de paramètres actifs.

Détails techniques clés

Le modèle utilise une architecture très éparse optimisée pour les tâches d'ingénierie de preuve. Il exploite l'inférence parallèle avec Lean comme vérificateur, le rendant à la fois performant et économique. Leanstral prend en charge des MCP arbitraires via Mistral Vibe et a été spécifiquement entraîné pour atteindre des performances maximales avec le lean-lsp-mcp fréquemment utilisé.

Benchmarks de performance

Leanstral a été évalué en utilisant FLTEval, une nouvelle suite d'évaluation axée sur des scénarios réalistes d'ingénierie de preuve plutôt que sur des problèmes mathématiques isolés. Les benchmarks comparent l'achèvement de preuves formelles et la définition correcte de nouveaux concepts mathématiques dans les PR du projet FLT.

Par rapport aux modèles open-source

  • Leanstral-120B-A6B atteint un score de 26,3 avec pass@2 (2 passes d'inférence)
  • GLM5-744B-A40B plafonne à environ 16,6
  • Kimi-K2.5-1T-32B plafonne à environ 20,1
  • Qwen3.5-397B-A17B nécessite 4 passes pour atteindre 25,4
  • Leanstral évolue linéairement, atteignant 29,3 à pass@4 et 31,9 à pass@16

Par rapport à la famille Claude

  • Leanstral pass@2 (score 26,3) bat Sonnet (23,7) de 2,6 points
  • Coût : Leanstral 36 $ contre Sonnet 549 $
  • Leanstral pass@16 atteint 31,9, battant Sonnet de 8 points
  • Claude Opus 4,6 mène avec 39,6 mais coûte 1 650 $ (92× le coût de Leanstral)
  • Haiku obtient 23,0 à 184 $
Ad

Exemple d'étude de cas

Face à une question réelle de Proof Assistants Stack Exchange concernant un script qui a cessé de compiler dans Lean 4.29.0-rc6, Leanstral a réussi à construire un code de test pour recréer l'environnement défaillant. Il a diagnostiqué qu'un def T2 := List Bool bloquait la tactique rw pour faire correspondre les motifs en raison de problèmes d'égalité définitionnelle. La correction proposée était de remplacer def par abbrev, car abbrev crée un alias transparent.

Disponibilité

Les poids de Leanstral sont publiés sous licence Apache 2.0, disponibles en mode agent dans Mistral Vibe et via un point de terminaison API gratuit. Un rapport technique détaillant l'approche d'entraînement sera également publié.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

🦀
Tools

TextGen (text-generation-webui) devient une application de bureau native avec des builds portables

TextGen, l'alternative open source à LM Studio, est passé d'une interface web à une application de bureau sans installation pour Windows, Linux et macOS avec des versions portables, une confidentialité totale et une prise en charge avancée de la quantification.

OpenClawRadar
ClawHost Open-Source OpenClaw Déploiement en un Clic Atteint 200+ Étoiles sur GitHub
Tools

ClawHost Open-Source OpenClaw Déploiement en un Clic Atteint 200+ Étoiles sur GitHub

ClawHost, un outil open-source pour l'installation en un clic d'OpenClaw avec un accès et un contrôle complets du serveur, a atteint plus de 200 étoiles sur GitHub. Le projet résout les problèmes liés aux enveloppes commerciales instables en proposant une solution gratuite et auto-hébergeable.

OpenClawRadar
First-Tree : un daemon open source qui utilise Claude Code pour trier les notifications GitHub pendant que vous dormez
Tools

First-Tree : un daemon open source qui utilise Claude Code pour trier les notifications GitHub pendant que vous dormez

Un démon open-source dans la barre de menus qui utilise Claude Code pour trier automatiquement les notifications GitHub – il a traité 98 notifications sur 100 lors d'un récent scan, n'en laissant que 2 pour révision humaine.

OpenClawRadar
Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %
Tools

Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %

code-graph-mcp est un serveur MCP qui indexe les bases de code dans un graphe de connaissances AST, remplaçant de multiples appels grep/read par des requêtes structurées uniques. Le développeur rapporte des économies de 40 à 60 % sur les tokens de session totale et 80 % d'appels d'outils en moins par tâche de navigation.

OpenClawRadar