Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles

Qu'est-ce que Leanstral

Leanstral est un agent de code open-source spécifiquement conçu pour Lean 4, un assistant de preuve capable d'exprimer des objets mathématiques complexes et des spécifications logicielles. Contrairement aux systèmes de preuve existants qui agissent comme des enveloppes autour de grands modèles généralistes, Leanstral est entraîné pour fonctionner dans des dépôts formels réalistes avec 6 milliards de paramètres actifs.

Détails techniques clés

Le modèle utilise une architecture très éparse optimisée pour les tâches d'ingénierie de preuve. Il exploite l'inférence parallèle avec Lean comme vérificateur, le rendant à la fois performant et économique. Leanstral prend en charge des MCP arbitraires via Mistral Vibe et a été spécifiquement entraîné pour atteindre des performances maximales avec le lean-lsp-mcp fréquemment utilisé.

Benchmarks de performance

Leanstral a été évalué en utilisant FLTEval, une nouvelle suite d'évaluation axée sur des scénarios réalistes d'ingénierie de preuve plutôt que sur des problèmes mathématiques isolés. Les benchmarks comparent l'achèvement de preuves formelles et la définition correcte de nouveaux concepts mathématiques dans les PR du projet FLT.

Par rapport aux modèles open-source

Leanstral-120B-A6B atteint un score de 26,3 avec pass@2 (2 passes d'inférence)
GLM5-744B-A40B plafonne à environ 16,6
Kimi-K2.5-1T-32B plafonne à environ 20,1
Qwen3.5-397B-A17B nécessite 4 passes pour atteindre 25,4
Leanstral évolue linéairement, atteignant 29,3 à pass@4 et 31,9 à pass@16

Par rapport à la famille Claude

Leanstral pass@2 (score 26,3) bat Sonnet (23,7) de 2,6 points
Coût : Leanstral 36 $ contre Sonnet 549 $
Leanstral pass@16 atteint 31,9, battant Sonnet de 8 points
Claude Opus 4,6 mène avec 39,6 mais coûte 1 650 $ (92× le coût de Leanstral)
Haiku obtient 23,0 à 184 $

Exemple d'étude de cas

Face à une question réelle de Proof Assistants Stack Exchange concernant un script qui a cessé de compiler dans Lean 4.29.0-rc6, Leanstral a réussi à construire un code de test pour recréer l'environnement défaillant. Il a diagnostiqué qu'un def T2 := List Bool bloquait la tactique rw pour faire correspondre les motifs en raison de problèmes d'égalité définitionnelle. La correction proposée était de remplacer def par abbrev, car abbrev crée un alias transparent.

Disponibilité

Les poids de Leanstral sont publiés sous licence Apache 2.0, disponibles en mode agent dans Mistral Vibe et via un point de terminaison API gratuit. Un rapport technique détaillant l'approche d'entraînement sera également publié.

📖 Read the full source: HN AI Agents

Leanstral : Agent de Code Open-Source pour Lean 4 et l'Ingénierie de Preuves Formelles

Qu'est-ce que Leanstral

Détails techniques clés

Benchmarks de performance

Par rapport aux modèles open-source

Par rapport à la famille Claude

Exemple d'étude de cas

Disponibilité

👀 See Also

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

Steerling-8B : Un modèle de langage interprétable avec attribution au niveau des tokens

Skill Seekers v3.2.0 ajoute l'extraction de tutoriels YouTube pour les compétences Claude.

Boîte à outils de piratage de voyage : Compétences en IA et serveurs MCP pour la recherche de points et de miles