Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering

Was Leanstral ist
Leanstral ist ein Open-Source-Code-Agent, der speziell für Lean 4 entwickelt wurde, einen Beweisassistenten, der komplexe mathematische Objekte und Softwarespezifikationen ausdrücken kann. Im Gegensatz zu bestehenden Beweissystemen, die als Wrapper um große Generalistenmodelle fungieren, ist Leanstral für den Einsatz in realistischen formalen Repositories mit 6B aktiven Parametern trainiert.
Wichtige technische Details
Das Modell verwendet eine hochgradig spärliche Architektur, die für Beweisengineering-Aufgaben optimiert ist. Es nutzt parallele Inferenz mit Lean als Verifizierer, was es sowohl leistungsstark als auch kosteneffizient macht. Leanstral unterstützt beliebige MCPs über Mistral Vibe und wurde speziell trainiert, um maximale Leistung mit dem häufig verwendeten lean-lsp-mcp zu erreichen.
Leistungsbenchmarks
Leanstral wurde mit FLTEval bewertet, einer neuen Evaluierungssuite, die sich auf realistische Beweisengineering-Szenarien konzentriert und nicht auf isolierte mathematische Probleme. Die Benchmarks vergleichen die Fertigstellung formaler Beweise und die korrekte Definition neuer mathematischer Konzepte in PRs zum FLT-Projekt.
Im Vergleich zu Open-Source-Modellen
- Leanstral-120B-A6B erreicht eine Punktzahl von 26,3 mit pass@2 (2 Inferenzdurchläufe)
- GLM5-744B-A40B erreicht maximal etwa 16,6
- Kimi-K2.5-1T-32B erreicht maximal etwa 20,1
- Qwen3.5-397B-A17B benötigt 4 Durchläufe, um 25,4 zu erreichen
- Leanstral skaliert linear und erreicht 29,3 bei pass@4 und 31,9 bei pass@16
Im Vergleich zur Claude-Familie
- Leanstral pass@2 (Punktzahl 26,3) schlägt Sonnet (23,7) um 2,6 Punkte
- Kosten: Leanstral 36 $ vs. Sonnet 549 $
- Leanstral pass@16 erreicht 31,9 und übertrifft Sonnet um 8 Punkte
- Claude Opus 4.6 führt mit 39,6, kostet aber 1.650 $ (92× die Kosten von Leanstral)
- Haiku erreicht 23,0 bei 184 $
Fallstudienbeispiel
Als Leanstral mit einer realen Frage von Proof Assistants Stack Exchange konfrontiert wurde, die sich auf ein Skript bezog, das in Lean 4.29.0-rc6 nicht mehr kompilierte, baute es erfolgreich Testcode, um die fehlschlagende Umgebung nachzubilden. Es diagnostizierte, dass eine def T2 := List Bool-Definition die rw-Taktik daran hinderte, Muster aufgrund von Definitionsgleichheitsproblemen abzugleichen. Der vorgeschlagene Fix war der Austausch von def durch abbrev, da abbrev einen transparenten Alias erstellt.
Verfügbarkeit
Die Leanstral-Gewichte werden unter der Apache-2.0-Lizenz veröffentlicht, sind im Agentenmodus innerhalb von Mistral Vibe und über einen kostenlosen API-Endpunkt verfügbar. Ein technischer Bericht, der den Trainingsansatz detailliert beschreibt, wird ebenfalls veröffentlicht.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Brainstorm MCP Server ermöglicht es Claude, andere LLMs zu konsultieren, um bessere Antworten zu erhalten
Ein Entwickler hat einen MCP-Server erstellt, der es Claude Code ermöglicht, andere KI-Modelle wie GPT-5.2 und DeepSeek zu konsultieren, bevor es Antworten liefert. Die Modelle führen mehrstufige Debatten, in denen sie die Antworten der anderen lesen, widersprechen und ihre Positionen verfeinern, um zu besseren Lösungen zu gelangen.

Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard
Vibeyard ist ein Tool, das erkennt, wenn KI-Coding-Agenten stille Tool-Fehler erleben – Situationen, in denen Agenten auf alternative Strategien zurückgreifen, ohne Entwickler zu benachrichtigen – und diese Ineffizienzen während der Sitzungen sichtbar macht. Es kann Korrekturen vorschlagen, um wiederholte ineffiziente Arbeitsabläufe zu verhindern.

Drei Repositories für RAG und KI-Agenten-Entwicklung
Ein Reddit-Beitrag hebt drei Repositories für Entwickler hervor, die mit RAG und KI-Agenten arbeiten: memvid für Agentenspeicher, llama_index für RAG-Pipelines und Continue für Programmierassistenten. Der Autor merkt an, dass reine RAG für Wissensabfragen am besten funktioniert, während Speichersysteme besser für Agenten geeignet sind, wobei hybride Ansätze in realen Tools üblich sind.

AgentCall: Lass Claude Code an Google Meet-, Zoom- oder Teams-Anrufen als Teammitglied teilnehmen
AgentCall.dev leitet Ihre bestehende Claude Code-, Codex- oder Cursor-Sitzung in Google Meet, Teams oder Zoom mit Sprache, Bildschirmübertragung und Chat weiter – ohne Desktop-Erfassung, ohne Daten von Drittanbietern im Direct-Modus.