Leanstral: Lean 4 및 형식적 증명 엔지니어링을 위한 오픈 소스 코드 에이전트

✍️ OpenClawRadar📅 게시일: March 17, 2026🔗 Source
Leanstral: Lean 4 및 형식적 증명 엔지니어링을 위한 오픈 소스 코드 에이전트
Ad

Leanstral이란 무엇인가

Leanstral은 복잡한 수학적 객체와 소프트웨어 명세를 표현할 수 있는 증명 보조 도구인 Lean 4를 위해 특별히 설계된 오픈소스 코드 에이전트입니다. 대규모 범용 모델을 감싸는 기존 증명 시스템과 달리, Leanstral은 60억 개의 활성 파라미터로 현실적인 형식 저장소에서 작동하도록 훈련되었습니다.

주요 기술적 세부사항

이 모델은 증명 엔지니어링 작업에 최적화된 고도로 희소한 아키텍처를 사용합니다. Lean을 검증기로 활용한 병렬 추론을 통해 성능과 비용 효율성을 모두 확보했습니다. Leanstral은 Mistral Vibe를 통해 임의의 MCP를 지원하며, 자주 사용되는 lean-lsp-mcp에서 최대 성능을 달성하도록 특별히 훈련되었습니다.

성능 벤치마크

Leanstral은 고립된 수학 문제가 아닌 현실적인 증명 엔지니어링 시나리오에 초점을 맞춘 새로운 평가 도구인 FLTEval을 사용하여 평가되었습니다. 벤치마크는 FLT 프로젝트에 대한 PR에서 형식적 증명의 완성도와 새로운 수학적 개념의 올바른 정의를 비교합니다.

오픈소스 모델 대비

  • Leanstral-120B-A6B는 pass@2(2회 추론 통과)에서 26.3점을 달성
  • GLM5-744B-A40B는 약 16.6점으로 최고치 기록
  • Kimi-K2.5-1T-32B는 약 20.1점으로 최고치 기록
  • Qwen3.5-397B-A17B는 25.4점에 도달하려면 4회 통과 필요
  • Leanstral은 선형적으로 확장되어 pass@4에서 29.3점, pass@16에서 31.9점 도달

Claude 패밀리 대비

  • Leanstral pass@2(26.3점)는 Sonnet(23.7점)보다 2.6점 높음
  • 비용: Leanstral $36 대비 Sonnet $549
  • Leanstral pass@16은 31.9점으로 Sonnet보다 8점 높음
  • Claude Opus 4.6은 39.6점으로 선두지만 $1,650(Leanstral 비용의 92배) 소요
  • Haiku는 $184에 23.0점 기록
Ad

사례 연구 예시

Proof Assistants Stack Exchange에서 Lean 4.29.0-rc6에서 컴파일이 중단된 스크립트에 관한 실제 질문이 제시되었을 때, Leanstral은 실패 환경을 재현하기 위한 테스트 코드를 성공적으로 구축했습니다. 이는 def T2 := List Bool이 정의적 동등성 문제로 인해 rw 전술이 패턴을 매칭하는 것을 막고 있다고 진단했습니다. 제안된 해결책은 abbrev가 투명한 별칭을 생성하기 때문에 defabbrev로 교체하는 것이었습니다.

사용 가능성

Leanstral 가중치는 Apache 2.0 라이선스로 공개되었으며, Mistral Vibe 내 에이전트 모드와 무료 API 엔드포인트를 통해 이용할 수 있습니다. 훈련 접근법을 상세히 설명하는 기술 보고서도 공개될 예정입니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

업프론트: 코딩 전에 생각을 강제하는 클로드 코드 플러그인
Tools

업프론트: 코딩 전에 생각을 강제하는 클로드 코드 플러그인

Upfront은 개발자에게 코드 생성 전에 도전을 제시하는 20가지 기능을 가진 Claude Code 플러그인입니다. 세 가지 명령어를 사용합니다: /upfront:feature로 모호한 요구사항에 대해 반박하고, /upfront:plan으로 작업을 약 400 LOC 단계로 분할하며, /upfront:build로 각 단계별 TDD와 리뷰를 실행합니다.

OpenClawRadar
클로드 코드 세션 인스펙터는 AI 에이전트 작업을 실시간으로 가시화합니다.
Tools

클로드 코드 세션 인스펙터는 AI 에이전트 작업을 실시간으로 가시화합니다.

클로드 코드를 감싸는 오픈소스 터미널 IDE인 Vibeyard가 타임라인 추적, 비용 분석, 도구 분석, 컨텍스트 창 모니터링을 포함한 클로드 코드 세션에 대한 실시간 가시성을 제공하는 세션 인스펙터 기능을 추가했습니다.

OpenClawRadar
Manifest는 이제 API 키 없이 Claude Pro/Max 구독을 지원합니다
Tools

Manifest는 이제 API 키 없이 Claude Pro/Max 구독을 지원합니다

오픈소스 라우팅 레이어인 Manifest는 이제 API 키 없이도 Claude Pro 또는 Max 구독을 직접 연결할 수 있도록 지원합니다. API 키가 있는 사용자는 구독 요금제 한도에 도달했을 때 폴백 라우팅을 구성할 수 있습니다.

OpenClawRadar
프롬프트-미니: Claude 코드 플러그인이 모호한 프롬프트를 가로채 크레딧 낭비를 줄입니다
Tools

프롬프트-미니: Claude 코드 플러그인이 모호한 프롬프트를 가로채 크레딧 낭비를 줄입니다

Prompt-mini는 Claude Code 플러그인으로, 실행 전에 모호한 프롬프트를 가로채어 명확한 질문을 하고, 스택 감지 및 40개 이상의 프레임워크에 대한 구체적인 규칙을 포함한 구조화된 프롬프트를 구축합니다. 이 도구는 범위 누락, 중지 조건, 파일 경로 등 35가지 크레딧 낭비 패턴을 해결합니다.

OpenClawRadar