Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering

✍️ OpenClawRadar📅 Veröffentlicht: 17. März 2026🔗 Source
Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering
Ad

Was Leanstral ist

Leanstral ist ein Open-Source-Code-Agent, der speziell für Lean 4 entwickelt wurde, einen Beweisassistenten, der komplexe mathematische Objekte und Softwarespezifikationen ausdrücken kann. Im Gegensatz zu bestehenden Beweissystemen, die als Wrapper um große Generalistenmodelle fungieren, ist Leanstral für den Einsatz in realistischen formalen Repositories mit 6B aktiven Parametern trainiert.

Wichtige technische Details

Das Modell verwendet eine hochgradig spärliche Architektur, die für Beweisengineering-Aufgaben optimiert ist. Es nutzt parallele Inferenz mit Lean als Verifizierer, was es sowohl leistungsstark als auch kosteneffizient macht. Leanstral unterstützt beliebige MCPs über Mistral Vibe und wurde speziell trainiert, um maximale Leistung mit dem häufig verwendeten lean-lsp-mcp zu erreichen.

Leistungsbenchmarks

Leanstral wurde mit FLTEval bewertet, einer neuen Evaluierungssuite, die sich auf realistische Beweisengineering-Szenarien konzentriert und nicht auf isolierte mathematische Probleme. Die Benchmarks vergleichen die Fertigstellung formaler Beweise und die korrekte Definition neuer mathematischer Konzepte in PRs zum FLT-Projekt.

Im Vergleich zu Open-Source-Modellen

  • Leanstral-120B-A6B erreicht eine Punktzahl von 26,3 mit pass@2 (2 Inferenzdurchläufe)
  • GLM5-744B-A40B erreicht maximal etwa 16,6
  • Kimi-K2.5-1T-32B erreicht maximal etwa 20,1
  • Qwen3.5-397B-A17B benötigt 4 Durchläufe, um 25,4 zu erreichen
  • Leanstral skaliert linear und erreicht 29,3 bei pass@4 und 31,9 bei pass@16

Im Vergleich zur Claude-Familie

  • Leanstral pass@2 (Punktzahl 26,3) schlägt Sonnet (23,7) um 2,6 Punkte
  • Kosten: Leanstral 36 $ vs. Sonnet 549 $
  • Leanstral pass@16 erreicht 31,9 und übertrifft Sonnet um 8 Punkte
  • Claude Opus 4.6 führt mit 39,6, kostet aber 1.650 $ (92× die Kosten von Leanstral)
  • Haiku erreicht 23,0 bei 184 $
Ad

Fallstudienbeispiel

Als Leanstral mit einer realen Frage von Proof Assistants Stack Exchange konfrontiert wurde, die sich auf ein Skript bezog, das in Lean 4.29.0-rc6 nicht mehr kompilierte, baute es erfolgreich Testcode, um die fehlschlagende Umgebung nachzubilden. Es diagnostizierte, dass eine def T2 := List Bool-Definition die rw-Taktik daran hinderte, Muster aufgrund von Definitionsgleichheitsproblemen abzugleichen. Der vorgeschlagene Fix war der Austausch von def durch abbrev, da abbrev einen transparenten Alias erstellt.

Verfügbarkeit

Die Leanstral-Gewichte werden unter der Apache-2.0-Lizenz veröffentlicht, sind im Agentenmodus innerhalb von Mistral Vibe und über einen kostenlosen API-Endpunkt verfügbar. Ein technischer Bericht, der den Trainingsansatz detailliert beschreibt, wird ebenfalls veröffentlicht.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Brainstorm MCP Server ermöglicht es Claude, andere LLMs zu konsultieren, um bessere Antworten zu erhalten
Werkzeuge

Brainstorm MCP Server ermöglicht es Claude, andere LLMs zu konsultieren, um bessere Antworten zu erhalten

Ein Entwickler hat einen MCP-Server erstellt, der es Claude Code ermöglicht, andere KI-Modelle wie GPT-5.2 und DeepSeek zu konsultieren, bevor es Antworten liefert. Die Modelle führen mehrstufige Debatten, in denen sie die Antworten der anderen lesen, widersprechen und ihre Positionen verfeinern, um zu besseren Lösungen zu gelangen.

OpenClawRadar
Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard
Werkzeuge

Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard

Vibeyard ist ein Tool, das erkennt, wenn KI-Coding-Agenten stille Tool-Fehler erleben – Situationen, in denen Agenten auf alternative Strategien zurückgreifen, ohne Entwickler zu benachrichtigen – und diese Ineffizienzen während der Sitzungen sichtbar macht. Es kann Korrekturen vorschlagen, um wiederholte ineffiziente Arbeitsabläufe zu verhindern.

OpenClawRadar
Drei Repositories für RAG und KI-Agenten-Entwicklung
Werkzeuge

Drei Repositories für RAG und KI-Agenten-Entwicklung

Ein Reddit-Beitrag hebt drei Repositories für Entwickler hervor, die mit RAG und KI-Agenten arbeiten: memvid für Agentenspeicher, llama_index für RAG-Pipelines und Continue für Programmierassistenten. Der Autor merkt an, dass reine RAG für Wissensabfragen am besten funktioniert, während Speichersysteme besser für Agenten geeignet sind, wobei hybride Ansätze in realen Tools üblich sind.

OpenClawRadar
AgentCall: Lass Claude Code an Google Meet-, Zoom- oder Teams-Anrufen als Teammitglied teilnehmen
Werkzeuge

AgentCall: Lass Claude Code an Google Meet-, Zoom- oder Teams-Anrufen als Teammitglied teilnehmen

AgentCall.dev leitet Ihre bestehende Claude Code-, Codex- oder Cursor-Sitzung in Google Meet, Teams oder Zoom mit Sprache, Bildschirmübertragung und Chat weiter – ohne Desktop-Erfassung, ohne Daten von Drittanbietern im Direct-Modus.

OpenClawRadar