스틸맨 R5: 미세 조정된 14B 모델, 에다 코드 생성에서 클로드 오푸스 능가

✍️ OpenClawRadar📅 게시일: March 13, 2026🔗 Source
스틸맨 R5: 미세 조정된 14B 모델, 에다 코드 생성에서 클로드 오푸스 능가
Ad

모델 및 학습 세부사항

Steelman R5 모델은 Ada 코드 생성을 위해 특별히 최적화된 Qwen2.5-Coder-14B-Instruct의 미세 조정 버전입니다. 학습은 Unsloth의 QLoRA 4비트와 TRL SFTTrainer를 사용하여, 모든 학습 예제가 gnatmake -gnat2022 -gnatwa 컴파일을 통과하는 3,430개의 Ada/SPARK 명령어 쌍 데이터셋으로 진행되었습니다.

학습 구성: LoRA 랭크 32, 알파 64, q/k/v/o/gate/up/down 프로젝션을 대상으로 함. 각 라운드마다 누적 데이터셋으로 기본 모델에서 완전 재학습 진행 (어댑터 연속 학습은 R2에서 치명적 망각 발생). 학습률 2e-5, 일정 스케줄로 1 에폭 진행, 대여한 H100에서 라운드당 약 49분 소요. 총 5라운드(R1–R5), R2는 폐기됨.

벤치마크 결과

커스텀 Ada 컴파일 벤치마크 (1,000개 프롬프트, 첫 시도 클린 컴파일):

  • Steelman R5 (14B): 68.6% 컴파일 성공률
  • Claude Opus 4.6: 42.1% 컴파일 성공률
  • Claude Sonnet 4.6: 37.2% 컴파일 성공률
  • Qwen2.5-Coder-14B (기본, 미조정): ~35% 컴파일 성공률
  • Claude Sonnet 4: 27.5% 컴파일 성공률

MultiPL-E HumanEval-Ada (157개 문제, pass@1):

  • Steelman R5: 47.1% pass@1, 74.5% 컴파일 성공률
  • Qwen2.5-Coder-14B (기본): 34.4% pass@1, 51.0% 컴파일 성공률

이는 모든 오픈 모델 중 HumanEval에서 처음으로 발표된 Ada pass@1 결과입니다.

Ad

사용법 및 가용성

모델 실행 방법: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

GGUF 버전은 Q4_K_M 양자화로 12GB VRAM에 적합합니다.

제한사항

  • 컴파일 ≠ 정확성: 68.6% 컴파일되지만 HumanEval에서 정확한 출력을 생성하는 비율은 47.1%에 불과
  • 오류 수정 능력이 약함(5.1%) - Ada 코드 디버깅을 기대하지 말 것
  • SPARK 계약은 컴파일되지만 gnatprove로 검증되지 않음
  • 합성 생성된 학습 데이터 - 인간 Ada 개발자가 작성한 예제 없음
  • 14B 모델 크기로 인해 더 큰 모델이 발견할 수 있는 것을 놓칠 수 있음

리소스

  • 모델: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
  • GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
  • 데이터셋: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 전체 원문 읽기: r/LocalLLaMA

Ad

👀 See Also

16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법
Tools

16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법

SkyPilot 팀이 Claude Code에 Kubernetes 클러스터의 16개 GPU에 대한 접근 권한을 부여하여 Karpathy의 Autoresearch 프로젝트를 실행했습니다. 8시간 동안 에이전트는 약 910개의 실험을 제출했고, 검증 비트/바이트를 1.003에서 0.974로 감소시켰으며(2.87% 개선), 순차 실행보다 9배 빠르게 최고의 검증 손실에 도달했습니다.

OpenClawRadar
ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다
Tools

ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다

오픈소스 도구 ThumbGate는 칭화대의 NLAH 논문에서 제안된 자연어 에이전트 하네스 패턴을 구현하며, 네 가지 구성요소를 매핑합니다: 계약은 엄지손가락 아래 피드백으로부터 생성된 예방 규칙으로, 검증 게이트는 PreToolUse 훅으로, 지속 상태는 SQLite+FTS5 학습 데이터베이스로, 어댑터는 여러 AI 코딩 에이전트를 위한 MCP 서버 어댑터로 매핑됩니다.

OpenClawRadar
OpenClaw 사용자가 ChatGPT 에이전트 워크플로우 행동을 개선하기 위해 'feelslikeclaude' 스킬을 생성합니다
Tools

OpenClaw 사용자가 ChatGPT 에이전트 워크플로우 행동을 개선하기 위해 'feelslikeclaude' 스킬을 생성합니다

한 개발자가 OpenClaw 설정을 Claude에서 ChatGPT로 전환한 후 핵심 차이가 글쓰기 스타일이 아닌 워크플로우 행동에 있음을 발견했습니다. 그들은 ChatGPT의 실행 습관을 개선하기 위해 'feelslikeclaude'라는 clawhub 스킬을 만들었습니다.

OpenClawRadar
클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯
Tools

클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯

Claudius는 Claude로 구동되는 오픈소스, 셀프 호스팅 채팅 위젯으로, 하나의 스크립트 태그로 어떤 웹사이트에든 임베드할 수 있습니다. React 프론트엔드와 함께 Cloudflare Workers에서 실행되며, 커스텀 시스템 프롬프트, 속도 제한, 접근성 준수 등의 기능을 포함합니다.

OpenClawRadar