Leanstral: Open-Source-Code-Agent für Lean 4 mit 6B Parametern

Was Leanstral ist

Leanstral ist ein Open-Source-Code-Agent, der speziell für Lean 4 entwickelt wurde, einen Beweisassistenten, der komplexe mathematische Objekte und Softwarespezifikationen ausdrücken kann. Im Gegensatz zu bestehenden Beweissystemen, die als Wrapper um große Generalistenmodelle fungieren, ist Leanstral für den Einsatz in realistischen formalen Repositories mit 6B aktiven Parametern trainiert.

Wichtige technische Details

Das Modell verwendet eine hochgradig spärliche Architektur, die für Beweisengineering-Aufgaben optimiert ist. Es nutzt parallele Inferenz mit Lean als Verifizierer, was es sowohl leistungsstark als auch kosteneffizient macht. Leanstral unterstützt beliebige MCPs über Mistral Vibe und wurde speziell trainiert, um maximale Leistung mit dem häufig verwendeten lean-lsp-mcp zu erreichen.

Leistungsbenchmarks

Leanstral wurde mit FLTEval bewertet, einer neuen Evaluierungssuite, die sich auf realistische Beweisengineering-Szenarien konzentriert und nicht auf isolierte mathematische Probleme. Die Benchmarks vergleichen die Fertigstellung formaler Beweise und die korrekte Definition neuer mathematischer Konzepte in PRs zum FLT-Projekt.

Im Vergleich zu Open-Source-Modellen

Leanstral-120B-A6B erreicht eine Punktzahl von 26,3 mit pass@2 (2 Inferenzdurchläufe)
GLM5-744B-A40B erreicht maximal etwa 16,6
Kimi-K2.5-1T-32B erreicht maximal etwa 20,1
Qwen3.5-397B-A17B benötigt 4 Durchläufe, um 25,4 zu erreichen
Leanstral skaliert linear und erreicht 29,3 bei pass@4 und 31,9 bei pass@16

Im Vergleich zur Claude-Familie

Leanstral pass@2 (Punktzahl 26,3) schlägt Sonnet (23,7) um 2,6 Punkte
Kosten: Leanstral 36 $ vs. Sonnet 549 $
Leanstral pass@16 erreicht 31,9 und übertrifft Sonnet um 8 Punkte
Claude Opus 4.6 führt mit 39,6, kostet aber 1.650 $ (92× die Kosten von Leanstral)
Haiku erreicht 23,0 bei 184 $

Fallstudienbeispiel

Als Leanstral mit einer realen Frage von Proof Assistants Stack Exchange konfrontiert wurde, die sich auf ein Skript bezog, das in Lean 4.29.0-rc6 nicht mehr kompilierte, baute es erfolgreich Testcode, um die fehlschlagende Umgebung nachzubilden. Es diagnostizierte, dass eine def T2 := List Bool-Definition die rw-Taktik daran hinderte, Muster aufgrund von Definitionsgleichheitsproblemen abzugleichen. Der vorgeschlagene Fix war der Austausch von def durch abbrev, da abbrev einen transparenten Alias erstellt.

Verfügbarkeit

Die Leanstral-Gewichte werden unter der Apache-2.0-Lizenz veröffentlicht, sind im Agentenmodus innerhalb von Mistral Vibe und über einen kostenlosen API-Endpunkt verfügbar. Ein technischer Bericht, der den Trainingsansatz detailliert beschreibt, wird ebenfalls veröffentlicht.

📖 Read the full source: HN AI Agents