Leanstral: Lean 4 및 형식적 증명 엔지니어링을 위한 오픈소스 코드 에이전트

Leanstral이란 무엇인가

Leanstral은 복잡한 수학적 객체와 소프트웨어 명세를 표현할 수 있는 증명 보조 도구인 Lean 4를 위해 특별히 설계된 오픈소스 코드 에이전트입니다. 대규모 범용 모델을 감싸는 기존 증명 시스템과 달리, Leanstral은 60억 개의 활성 파라미터로 현실적인 형식 저장소에서 작동하도록 훈련되었습니다.

주요 기술적 세부사항

이 모델은 증명 엔지니어링 작업에 최적화된 고도로 희소한 아키텍처를 사용합니다. Lean을 검증기로 활용한 병렬 추론을 통해 성능과 비용 효율성을 모두 확보했습니다. Leanstral은 Mistral Vibe를 통해 임의의 MCP를 지원하며, 자주 사용되는 lean-lsp-mcp에서 최대 성능을 달성하도록 특별히 훈련되었습니다.

성능 벤치마크

Leanstral은 고립된 수학 문제가 아닌 현실적인 증명 엔지니어링 시나리오에 초점을 맞춘 새로운 평가 도구인 FLTEval을 사용하여 평가되었습니다. 벤치마크는 FLT 프로젝트에 대한 PR에서 형식적 증명의 완성도와 새로운 수학적 개념의 올바른 정의를 비교합니다.

오픈소스 모델 대비

Leanstral-120B-A6B는 pass@2(2회 추론 통과)에서 26.3점을 달성
GLM5-744B-A40B는 약 16.6점으로 최고치 기록
Kimi-K2.5-1T-32B는 약 20.1점으로 최고치 기록
Qwen3.5-397B-A17B는 25.4점에 도달하려면 4회 통과 필요
Leanstral은 선형적으로 확장되어 pass@4에서 29.3점, pass@16에서 31.9점 도달

Claude 패밀리 대비

Leanstral pass@2(26.3점)는 Sonnet(23.7점)보다 2.6점 높음
비용: Leanstral $36 대비 Sonnet $549
Leanstral pass@16은 31.9점으로 Sonnet보다 8점 높음
Claude Opus 4.6은 39.6점으로 선두지만 $1,650(Leanstral 비용의 92배) 소요
Haiku는 $184에 23.0점 기록

사례 연구 예시

Proof Assistants Stack Exchange에서 Lean 4.29.0-rc6에서 컴파일이 중단된 스크립트에 관한 실제 질문이 제시되었을 때, Leanstral은 실패 환경을 재현하기 위한 테스트 코드를 성공적으로 구축했습니다. 이는 def T2 := List Bool이 정의적 동등성 문제로 인해 rw 전술이 패턴을 매칭하는 것을 막고 있다고 진단했습니다. 제안된 해결책은 abbrev가 투명한 별칭을 생성하기 때문에 def를 abbrev로 교체하는 것이었습니다.