Leanstral: Agente de Código de Código Aberto para Lean 4 e Engenharia de Provas Formais

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
Leanstral: Agente de Código de Código Aberto para Lean 4 e Engenharia de Provas Formais
Ad

O que é o Leanstral

O Leanstral é um agente de código de código aberto projetado especificamente para o Lean 4, um assistente de prova capaz de expressar objetos matemáticos complexos e especificações de software. Diferente dos sistemas de prova existentes que atuam como wrappers em torno de modelos generalistas grandes, o Leanstral é treinado para operar em repositórios formais realistas com 6B parâmetros ativos.

Detalhes Técnicos Principais

O modelo utiliza uma arquitetura altamente esparsa otimizada para tarefas de engenharia de provas. Ele aproveita a inferência paralela com o Lean como verificador, tornando-o tanto performático quanto custo-eficiente. O Leanstral suporta MCPs arbitrários através do Mistral Vibe e foi especificamente treinado para alcançar desempenho máximo com o frequentemente usado lean-lsp-mcp.

Benchmarks de Desempenho

O Leanstral foi avaliado usando o FLTEval, um novo conjunto de avaliação focado em cenários realistas de engenharia de provas em vez de problemas matemáticos isolados. Os benchmarks comparam a conclusão de provas formais e a definição correta de novos conceitos matemáticos em PRs para o projeto FLT.

Comparado a Modelos de Código Aberto

  • Leanstral-120B-A6B alcança uma pontuação de 26,3 com pass@2 (2 passagens de inferência)
  • GLM5-744B-A40B atinge aproximadamente 16,6
  • Kimi-K2.5-1T-32B atinge aproximadamente 20,1
  • Qwen3.5-397B-A17B requer 4 passagens para alcançar 25,4
  • Leanstral escala linearmente, atingindo 29,3 em pass@4 e 31,9 em pass@16

Comparado à Família Claude

  • Leanstral pass@2 (pontuação 26,3) supera Sonnet (23,7) por 2,6 pontos
  • Custo: Leanstral $36 vs. Sonnet $549
  • Leanstral pass@16 atinge 31,9, superando Sonnet por 8 pontos
  • Claude Opus 4.6 lidera com 39,6 mas custa $1.650 (92× o custo do Leanstral)
  • Haiku pontua 23,0 a $184
Ad

Exemplo de Estudo de Caso

Quando apresentado com uma pergunta do mundo real do Proof Assistants Stack Exchange sobre um script que parou de compilar no Lean 4.29.0-rc6, o Leanstral construiu com sucesso código de teste para recriar o ambiente de falha. Ele diagnosticou que um def T2 := List Bool estava bloqueando a tática rw de corresponder padrões devido a problemas de igualdade definicional. A correção proposta foi trocar def por abbrev, já que abbrev cria um alias transparente.

Disponibilidade

Os pesos do Leanstral são lançados sob licença Apache 2.0, disponíveis no modo agente dentro do Mistral Vibe e através de um endpoint de API gratuito. Um relatório técnico detalhando a abordagem de treinamento também será lançado.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Voxray-AI: Backend de Produção em Go para Pipelines de Agentes de Voz em Tempo Real
Tools

Voxray-AI: Backend de Produção em Go para Pipelines de Agentes de Voz em Tempo Real

Voxray-AI é um backend em Go que encadeia Whisper → qualquer LLM → TTS em um pipeline de agente de voz em tempo real com suporte a WebSocket e WebRTC. É construído para servidores de nível de produção e cargas de trabalho de voz de alta concorrência com provedores configuráveis para as camadas de STT, LLM e TTS.

OpenClawRadar
js-notepad: Um Bloco de Notas Programável com Servidor MCP Integrado para Claude Code
Tools

js-notepad: Um Bloco de Notas Programável com Servidor MCP Integrado para Claude Code

js-notepad é um aplicativo de bloco de notas programável gratuito e de código aberto, construído com assistência do Claude Code. Ele possui um servidor MCP integrado, permitindo que o Claude Code interaja diretamente com o aplicativo para ler/escrever páginas, executar scripts, criar tarefas e enviar resultados.

OpenClawRadar
Código aberto da pilha "the-vibe": Regras de Markdown para Manter a Consistência do Código Claude
Tools

Código aberto da pilha "the-vibe": Regras de Markdown para Manter a Consistência do Código Claude

Um desenvolvedor disponibilizou como código aberto 'the-vibe-stack' — um conjunto de regras Markdown projetado para manter o Claude Code no caminho certo durante sessões longas, impondo um esquema rígido. A abordagem visa reduzir o desvio lógico e o desperdício de tokens, garantindo uma saída previsível.

OpenClawRadar
Título do Pipeline de Recapitulação de Filmes Local-First Usando Whisper + CLIP + Ollama
Tools

Título do Pipeline de Recapitulação de Filmes Local-First Usando Whisper + CLIP + Ollama

Um pipeline totalmente local que gera automaticamente vídeos de resumo narrados de filmes usando Whisper, CLIP, Ollama, Edge TTS e FFmpeg. Insira um arquivo de filme e obtenha um resumo narrado em cerca de 15 minutos.

OpenClawRadar