14B 모델 스틸맨 R5, 에다 코드 생성서 클로드 능가

모델 및 학습 세부사항

Steelman R5 모델은 Ada 코드 생성을 위해 특별히 최적화된 Qwen2.5-Coder-14B-Instruct의 미세 조정 버전입니다. 학습은 Unsloth의 QLoRA 4비트와 TRL SFTTrainer를 사용하여, 모든 학습 예제가 gnatmake -gnat2022 -gnatwa 컴파일을 통과하는 3,430개의 Ada/SPARK 명령어 쌍 데이터셋으로 진행되었습니다.

학습 구성: LoRA 랭크 32, 알파 64, q/k/v/o/gate/up/down 프로젝션을 대상으로 함. 각 라운드마다 누적 데이터셋으로 기본 모델에서 완전 재학습 진행 (어댑터 연속 학습은 R2에서 치명적 망각 발생). 학습률 2e-5, 일정 스케줄로 1 에폭 진행, 대여한 H100에서 라운드당 약 49분 소요. 총 5라운드(R1–R5), R2는 폐기됨.

벤치마크 결과

커스텀 Ada 컴파일 벤치마크 (1,000개 프롬프트, 첫 시도 클린 컴파일):

Steelman R5 (14B): 68.6% 컴파일 성공률
Claude Opus 4.6: 42.1% 컴파일 성공률
Claude Sonnet 4.6: 37.2% 컴파일 성공률
Qwen2.5-Coder-14B (기본, 미조정): ~35% 컴파일 성공률
Claude Sonnet 4: 27.5% 컴파일 성공률

MultiPL-E HumanEval-Ada (157개 문제, pass@1):

Steelman R5: 47.1% pass@1, 74.5% 컴파일 성공률
Qwen2.5-Coder-14B (기본): 34.4% pass@1, 51.0% 컴파일 성공률

이는 모든 오픈 모델 중 HumanEval에서 처음으로 발표된 Ada pass@1 결과입니다.

사용법 및 가용성

모델 실행 방법: ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

GGUF 버전은 Q4_K_M 양자화로 12GB VRAM에 적합합니다.

제한사항

컴파일 ≠ 정확성: 68.6% 컴파일되지만 HumanEval에서 정확한 출력을 생성하는 비율은 47.1%에 불과
오류 수정 능력이 약함(5.1%) - Ada 코드 디버깅을 기대하지 말 것
SPARK 계약은 컴파일되지만 gnatprove로 검증되지 않음
합성 생성된 학습 데이터 - 인간 Ada 개발자가 작성한 예제 없음
14B 모델 크기로 인해 더 큰 모델이 발견할 수 있는 것을 놓칠 수 있음

리소스

모델: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGUF: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF
데이터셋: https://huggingface.co/datasets/the-clanker-lover/steelman-sft-ada

📖 전체 원문 읽기: r/LocalLLaMA

스틸맨 R5: 미세 조정된 14B 모델, 에다 코드 생성에서 클로드 오푸스 능가

모델 및 학습 세부사항

벤치마크 결과

사용법 및 가용성

제한사항

리소스

👀 See Also

OpenClaw 스킬 '대기 팁'은 AI 응답 대기 시간 동안 학습 팁을 표시합니다

NemoClaw 샌드박스 격리 우회를 통한 로컬 Nemotron 9B 에이전트 실행

해안: 다중 로컬호스트 환경을 실행하기 위한 컨테이너화된 호스트

bunx ccusage는 $18,450의 크레딧 소모를 보여주며 — 플랫 플랜이 비용을 흡수합니다