Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

✍️ OpenClawRadar📅 Publicado: 17 de marzo de 2026🔗 Source
Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales
Ad

Qué es Leanstral

Leanstral es un agente de código de código abierto diseñado específicamente para Lean 4, un asistente de pruebas capaz de expresar objetos matemáticos complejos y especificaciones de software. A diferencia de los sistemas de demostración existentes que actúan como envoltorios alrededor de modelos generalistas grandes, Leanstral está entrenado para operar en repositorios formales realistas con 6B parámetros activos.

Detalles Técnicos Clave

El modelo utiliza una arquitectura altamente dispersa optimizada para tareas de ingeniería de pruebas. Aprovecha la inferencia paralela con Lean como verificador, haciéndolo tanto eficiente en rendimiento como en costo. Leanstral soporta MCPs arbitrarios a través de Mistral Vibe y fue entrenado específicamente para lograr el máximo rendimiento con el frecuentemente usado lean-lsp-mcp.

Benchmarks de Rendimiento

Leanstral fue evaluado usando FLTEval, una nueva suite de evaluación enfocada en escenarios realistas de ingeniería de pruebas en lugar de problemas matemáticos aislados. Los benchmarks comparan la finalización de pruebas formales y la definición correcta de nuevos conceptos matemáticos en PRs al proyecto FLT.

Contra Modelos de Código Abierto

  • Leanstral-120B-A6B logra una puntuación de 26.3 con pass@2 (2 pasos de inferencia)
  • GLM5-744B-A40B se limita aproximadamente a 16.6
  • Kimi-K2.5-1T-32B se limita aproximadamente a 20.1
  • Qwen3.5-397B-A17B requiere 4 pasos para alcanzar 25.4
  • Leanstral escala linealmente, alcanzando 29.3 en pass@4 y 31.9 en pass@16

Contra la Familia Claude

  • Leanstral pass@2 (puntuación 26.3) supera a Sonnet (23.7) por 2.6 puntos
  • Costo: Leanstral $36 vs. Sonnet $549
  • Leanstral pass@16 alcanza 31.9, superando a Sonnet por 8 puntos
  • Claude Opus 4.6 lidera con 39.6 pero cuesta $1,650 (92× el costo de Leanstral)
  • Haiku puntúa 23.0 a $184
Ad

Ejemplo de Caso de Estudio

Cuando se le presentó una pregunta del mundo real de Proof Assistants Stack Exchange sobre un script que dejó de compilar en Lean 4.29.0-rc6, Leanstral construyó exitosamente código de prueba para recrear el entorno fallido. Diagnosticó que una def T2 := List Bool estaba bloqueando que la táctica rw coincidiera con patrones debido a problemas de igualdad definicional. La solución propuesta fue cambiar def por abbrev ya que abbrev crea un alias transparente.

Disponibilidad

Los pesos de Leanstral se publican bajo licencia Apache 2.0, disponibles en modo agente dentro de Mistral Vibe y a través de un endpoint API gratuito. También se publicará un informe técnico que detalla el enfoque de entrenamiento.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Chapper: Cliente nativo de iOS para LM Studio, Ollama y modelos locales compatibles con OpenAI
Herramientas

Chapper: Cliente nativo de iOS para LM Studio, Ollama y modelos locales compatibles con OpenAI

Chapper es una aplicación nativa de SwiftUI para iOS que se conecta a LM Studio, Ollama y modelos locales compatibles con OpenAI sin servicios en la nube ni cuentas. Ofrece transmisión de tokens en tiempo real, controles completos de muestreo, soporte para modelos de razonamiento con etiquetas <think> y exportación en 7 formatos.

OpenClawRadar
El formato WCY reduce la sobrecarga de tokens en LLM entre un 50 y 71% e incorpora marcadores estructurales de "no lo sé".
Herramientas

El formato WCY reduce la sobrecarga de tokens en LLM entre un 50 y 71% e incorpora marcadores estructurales de "no lo sé".

WCY (Observar → Computar → Producir) es un formato orientado a líneas que reduce la sobrecarga de tokens JSON en un 50-71% e introduce marcadores estructurales '?' para que los LLM indiquen incertidumbre durante el razonamiento. El formato no requiere ajuste fino—solo tres ejemplos de pocas muestras.

OpenClawRadar
🦀
Herramientas

Usar un chat adversarial de Claude para detectar ambigüedades iniciales antes de que te cuesten caro

Un desarrollador añadió un segundo chat de Claude cuya única función es revisar de manera adversaria los kickoffs en busca de especificaciones ambiguas y fallos silenciosos, ahorrando un estimado de $150-400 en retrabajo de Claude Code en una fase del proyecto.

OpenClawRadar
Claude-File-Recovery: Herramienta CLI que extrae archivos del historial de sesiones de Claude Code
Herramientas

Claude-File-Recovery: Herramienta CLI que extrae archivos del historial de sesiones de Claude Code

claude-file-recovery es una herramienta CLI de Python y TUI que analiza transcripciones de sesiones JSONL de ~/.claude/projects/ para recuperar archivos creados, modificados o leídos por Claude Code, incluyendo la recuperación puntual de versiones anteriores de archivos.

OpenClawRadar