Bonsai 1.7B 삼진 모델 M4 Max 442 t/s Metal 커널 튜닝

PrismML의 삼진 모델인 Bonsai 1.7B가 자율 튜닝된 Metal 커널을 사용하여 Apple Silicon에 최적화되었습니다. 이 작업은 Agents2Agents의 자율 엔지니어링 에이전트인 ata가 수행했으며, 6시간 동안 에이전틱 진화 검색을 실행하여 맞춤형 GPU 커널을 생성했습니다.

벤치마크 결과

동일한 Bonsai/Q2_0 커밋의 상위 llama.cpp와 M4 Max에서 측정(동일한 모델 파일, 동일한 llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99 구성):

디코드 (tg128): 311.66 → 442.42 t/s (+42.0%)
프리필 (pp512): 4250.32 → 4622.63 t/s (+8.8%)

참고로 Bonsai 8B 백서에서는 Apple Silicon에서 MLX 업스트림 Q2_0 디코드가 235 t/s라고 보고합니다. 이 빌드는 맞춤형 Metal 커널을 통해 1.7B 변종에서 442 t/s를 달성합니다(다른 프레임워크, 더 작은 모델 — 스택에서 여유 공간이 있음을 방향적으로 시사).

포함 내용

이 빌드는 M 시리즈 Mac(arm64 전용)용 드롭인 최적화 추론 패키지입니다. 358 MB tar.xz 내부:

chat.sh — 대화형 REPL
complete.sh — 비대화형 완성
bench.sh — 벤치마크 재현
server.sh — :8080에서 OpenAI 호환 HTTP API
Bonsai-1.7B-Q2_0.gguf — 모델 파일 (442 MB)

빠른 시작

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

기술적 세부 사항

모든 Metal 커널은 인간의 개입 없이 ata가 작성하고 조정했습니다. 이 작업은 Bonsai 1.7B Q2_0 디코드 경로에 특화된 matvec / FFN / KV-캐시 계층의 맞춤형 GPU 커널에 중점을 두었습니다. 수치 출력은 참조 빌드와 일치합니다(상위-1 토큰 일치 확인). M4 Max에서 테스트됨; M1+에서 비례적인 성능 향상 예상.