Leanstral: Открытый код-агент для Lean 4 и инженерии формальных доказательств

Что такое Leanstral
Leanstral — это open-source код-агент, специально разработанный для Lean 4, помощника по доказательствам, способного выражать сложные математические объекты и спецификации программного обеспечения. В отличие от существующих систем доказательств, которые выступают обёртками вокруг больших универсальных моделей, Leanstral обучен для работы в реалистичных формальных репозиториях с 6 миллиардами активных параметров.
Ключевые технические детали
Модель использует высокоразреженную архитектуру, оптимизированную для задач инженерии доказательств. Она использует параллельный вывод с Lean в качестве верификатора, что делает её как производительной, так и экономически эффективной. Leanstral поддерживает произвольные MCP через Mistral Vibe и был специально обучен для достижения максимальной производительности с часто используемым lean-lsp-mcp.
Бенчмарки производительности
Leanstral оценивался с помощью FLTEval — нового набора тестов, ориентированного на реалистичные сценарии инженерии доказательств, а не на изолированные математические задачи. Бенчмарки сравнивают завершение формальных доказательств и корректное определение новых математических концепций в PR к проекту FLT.
Против open-source моделей
- Leanstral-120B-A6B достигает оценки 26.3 при pass@2 (2 прохода вывода)
- GLM5-744B-A40B ограничивается примерно 16.6
- Kimi-K2.5-1T-32B ограничивается примерно 20.1
- Qwen3.5-397B-A17B требует 4 проходов для достижения 25.4
- Leanstral масштабируется линейно, достигая 29.3 при pass@4 и 31.9 при pass@16
Против семейства Claude
- Leanstral pass@2 (оценка 26.3) опережает Sonnet (23.7) на 2.6 балла
- Стоимость: Leanstral $36 против Sonnet $549
- Leanstral pass@16 достигает 31.9, опережая Sonnet на 8 баллов
- Claude Opus 4.6 лидирует с 39.6, но стоит $1,650 (в 92 раза дороже Leanstral)
- Haiku набирает 23.0 при стоимости $184
Пример кейса
При представлении реального вопроса с Proof Assistants Stack Exchange о скрипте, который перестал компилироваться в Lean 4.29.0-rc6, Leanstral успешно построил тестовый код для воссоздания проблемной среды. Он диагностировал, что def T2 := List Bool блокировал тактику rw от сопоставления паттернов из-за проблем с определительным равенством. Предложенное исправление — замена def на abbrev, поскольку abbrev создаёт прозрачный псевдоним.
Доступность
Веса Leanstral выпущены под лицензией Apache 2.0, доступны в режиме агента внутри Mistral Vibe и через бесплатный API-эндпоинт. Также будет выпущен технический отчёт, детализирующий подход к обучению.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Разработчик создает практичные навыки Claude для проектов Kotlin Multiplatform.
Разработчик создал публичный репозиторий навыков Claude специально для работы с Kotlin Multiplatform, обнаружив, что существующие навыки слишком общие, субъективные или поверхностные. Навыки охватывают архитектурные обзоры, реализацию функций, модуляризацию, Compose Multiplatform UI, навигацию, платформенные мосты, глубокие ссылки, адаптивный интерфейс, тестирование и управление сборкой.

TREX: ИИ-ревьюер кода от Greptile, который запускает ваш код
TREX — это уровень выполнения кода, встроенный в AI-ревью кода от Greptile. Он запускает код и показывает скриншоты, логи и трассы для ошибок, которые упускает статический анализ.

Устранение неполадок с доступом к электронной почте и Google Drive для AI-агентов
Настройка доступа к электронной почте и Google Drive для ИИ-ботов на AWS может привести к блокировкам аккаунтов. Вот решение с использованием Gmail и доменов Workspace.

Shipshots MCP Сервер: Claude создает скриншоты для App Store и превью-видео
Shipshots — это визуальный редактор с сервером MCP, который позволяет Claude создавать маркетинговые материалы с помощью вызовов инструментов. Он генерирует скриншоты для магазинов приложений, анимированные превью-видео и визуалы для соцсетей на основе текстовых описаний.