Leanstral: Agente de Código Abierto para Lean 4 con 6B Parámetros

Qué es Leanstral

Leanstral es un agente de código de código abierto diseñado específicamente para Lean 4, un asistente de pruebas capaz de expresar objetos matemáticos complejos y especificaciones de software. A diferencia de los sistemas de demostración existentes que actúan como envoltorios alrededor de modelos generalistas grandes, Leanstral está entrenado para operar en repositorios formales realistas con 6B parámetros activos.

Detalles Técnicos Clave

El modelo utiliza una arquitectura altamente dispersa optimizada para tareas de ingeniería de pruebas. Aprovecha la inferencia paralela con Lean como verificador, haciéndolo tanto eficiente en rendimiento como en costo. Leanstral soporta MCPs arbitrarios a través de Mistral Vibe y fue entrenado específicamente para lograr el máximo rendimiento con el frecuentemente usado lean-lsp-mcp.

Benchmarks de Rendimiento

Leanstral fue evaluado usando FLTEval, una nueva suite de evaluación enfocada en escenarios realistas de ingeniería de pruebas en lugar de problemas matemáticos aislados. Los benchmarks comparan la finalización de pruebas formales y la definición correcta de nuevos conceptos matemáticos en PRs al proyecto FLT.

Contra Modelos de Código Abierto

Leanstral-120B-A6B logra una puntuación de 26.3 con pass@2 (2 pasos de inferencia)
GLM5-744B-A40B se limita aproximadamente a 16.6
Kimi-K2.5-1T-32B se limita aproximadamente a 20.1
Qwen3.5-397B-A17B requiere 4 pasos para alcanzar 25.4
Leanstral escala linealmente, alcanzando 29.3 en pass@4 y 31.9 en pass@16

Contra la Familia Claude

Leanstral pass@2 (puntuación 26.3) supera a Sonnet (23.7) por 2.6 puntos
Costo: Leanstral $36 vs. Sonnet $549
Leanstral pass@16 alcanza 31.9, superando a Sonnet por 8 puntos
Claude Opus 4.6 lidera con 39.6 pero cuesta $1,650 (92× el costo de Leanstral)
Haiku puntúa 23.0 a $184

Ejemplo de Caso de Estudio

Cuando se le presentó una pregunta del mundo real de Proof Assistants Stack Exchange sobre un script que dejó de compilar en Lean 4.29.0-rc6, Leanstral construyó exitosamente código de prueba para recrear el entorno fallido. Diagnosticó que una def T2 := List Bool estaba bloqueando que la táctica rw coincidiera con patrones debido a problemas de igualdad definicional. La solución propuesta fue cambiar def por abbrev ya que abbrev crea un alias transparente.

Disponibilidad

Los pesos de Leanstral se publican bajo licencia Apache 2.0, disponibles en modo agente dentro de Mistral Vibe y a través de un endpoint API gratuito. También se publicará un informe técnico que detalla el enfoque de entrenamiento.

📖 Read the full source: HN AI Agents

Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

Qué es Leanstral

Detalles Técnicos Clave

Benchmarks de Rendimiento

Contra Modelos de Código Abierto

Contra la Familia Claude

Ejemplo de Caso de Estudio

Disponibilidad

👀 Ver también

Chapper: Cliente nativo de iOS para LM Studio, Ollama y modelos locales compatibles con OpenAI

El formato WCY reduce la sobrecarga de tokens en LLM entre un 50 y 71% e incorpora marcadores estructurales de "no lo sé".

Usar un chat adversarial de Claude para detectar ambigüedades iniciales antes de que te cuesten caro

Claude-File-Recovery: Herramienta CLI que extrae archivos del historial de sesiones de Claude Code