스틸맨 R5: 미세 조정된 14B 모델, 에다 코드 생성에서 클로드 오푸스 능가

모델 및 학습 세부사항
Steelman R5 모델은 Ada 코드 생성을 위해 특별히 최적화된 Qwen2.5-Coder-14B-Instruct의 미세 조정 버전입니다. 학습은 Unsloth의 QLoRA 4비트와 TRL SFTTrainer를 사용하여, 모든 학습 예제가 gnatmake -gnat2022 -gnatwa 컴파일을 통과하는 3,430개의 Ada/SPARK 명령어 쌍 데이터셋으로 진행되었습니다.
학습 구성: LoRA 랭크 32, 알파 64, q/k/v/o/gate/up/down 프로젝션을 대상으로 함. 각 라운드마다 누적 데이터셋으로 기본 모델에서 완전 재학습 진행 (어댑터 연속 학습은 R2에서 치명적 망각 발생). 학습률 2e-5, 일정 스케줄로 1 에폭 진행, 대여한 H100에서 라운드당 약 49분 소요. 총 5라운드(R1–R5), R2는 폐기됨.
벤치마크 결과
커스텀 Ada 컴파일 벤치마크 (1,000개 프롬프트, 첫 시도 클린 컴파일):
- Steelman R5 (14B): 68.6% 컴파일 성공률
- Claude Opus 4.6: 42.1% 컴파일 성공률
- Claude Sonnet 4.6: 37.2% 컴파일 성공률
- Qwen2.5-Coder-14B (기본, 미조정): ~35% 컴파일 성공률
- Claude Sonnet 4: 27.5% 컴파일 성공률
MultiPL-E HumanEval-Ada (157개 문제, pass@1):
- Steelman R5: 47.1% pass@1, 74.5% 컴파일 성공률
- Qwen2.5-Coder-14B (기본): 34.4% pass@1, 51.0% 컴파일 성공률
이는 모든 오픈 모델 중 HumanEval에서 처음으로 발표된 Ada pass@1 결과입니다.
사용법 및 가용성
모델 실행 방법: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
GGUF 버전은 Q4_K_M 양자화로 12GB VRAM에 적합합니다.
제한사항
- 컴파일 ≠ 정확성: 68.6% 컴파일되지만 HumanEval에서 정확한 출력을 생성하는 비율은 47.1%에 불과
- 오류 수정 능력이 약함(5.1%) - Ada 코드 디버깅을 기대하지 말 것
- SPARK 계약은 컴파일되지만 gnatprove로 검증되지 않음
- 합성 생성된 학습 데이터 - 인간 Ada 개발자가 작성한 예제 없음
- 14B 모델 크기로 인해 더 큰 모델이 발견할 수 있는 것을 놓칠 수 있음
리소스
- 모델: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
- GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
- 데이터셋: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada
📖 전체 원문 읽기: r/LocalLLaMA
👀 See Also

16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법
SkyPilot 팀이 Claude Code에 Kubernetes 클러스터의 16개 GPU에 대한 접근 권한을 부여하여 Karpathy의 Autoresearch 프로젝트를 실행했습니다. 8시간 동안 에이전트는 약 910개의 실험을 제출했고, 검증 비트/바이트를 1.003에서 0.974로 감소시켰으며(2.87% 개선), 순차 실행보다 9배 빠르게 최고의 검증 손실에 도달했습니다.

ThumbGate, AI 안전을 위해 Tsinghua의 자연어 에이전트 하네스 패턴을 구현합니다
오픈소스 도구 ThumbGate는 칭화대의 NLAH 논문에서 제안된 자연어 에이전트 하네스 패턴을 구현하며, 네 가지 구성요소를 매핑합니다: 계약은 엄지손가락 아래 피드백으로부터 생성된 예방 규칙으로, 검증 게이트는 PreToolUse 훅으로, 지속 상태는 SQLite+FTS5 학습 데이터베이스로, 어댑터는 여러 AI 코딩 에이전트를 위한 MCP 서버 어댑터로 매핑됩니다.

OpenClaw 사용자가 ChatGPT 에이전트 워크플로우 행동을 개선하기 위해 'feelslikeclaude' 스킬을 생성합니다
한 개발자가 OpenClaw 설정을 Claude에서 ChatGPT로 전환한 후 핵심 차이가 글쓰기 스타일이 아닌 워크플로우 행동에 있음을 발견했습니다. 그들은 ChatGPT의 실행 습관을 개선하기 위해 'feelslikeclaude'라는 clawhub 스킬을 만들었습니다.

클로디우스: 클로드용 오픈소스 임베디드 AI 채팅 위젯
Claudius는 Claude로 구동되는 오픈소스, 셀프 호스팅 채팅 위젯으로, 하나의 스크립트 태그로 어떤 웹사이트에든 임베드할 수 있습니다. React 프론트엔드와 함께 Cloudflare Workers에서 실행되며, 커스텀 시스템 프롬프트, 속도 제한, 접근성 준수 등의 기능을 포함합니다.