M4 Max에서 자체 튜닝된 메탈 커널로 초당 442토큰을 기록한 Bonsai 1.7B 삼진 모델

✍️ OpenClawRadar📅 게시일: May 4, 2026🔗 Source
M4 Max에서 자체 튜닝된 메탈 커널로 초당 442토큰을 기록한 Bonsai 1.7B 삼진 모델
Ad

PrismML의 삼진 모델인 Bonsai 1.7B가 자율 튜닝된 Metal 커널을 사용하여 Apple Silicon에 최적화되었습니다. 이 작업은 Agents2Agents의 자율 엔지니어링 에이전트인 ata가 수행했으며, 6시간 동안 에이전틱 진화 검색을 실행하여 맞춤형 GPU 커널을 생성했습니다.

벤치마크 결과

동일한 Bonsai/Q2_0 커밋의 상위 llama.cpp와 M4 Max에서 측정(동일한 모델 파일, 동일한 llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99 구성):

  • 디코드 (tg128): 311.66 → 442.42 t/s (+42.0%)
  • 프리필 (pp512): 4250.32 → 4622.63 t/s (+8.8%)

참고로 Bonsai 8B 백서에서는 Apple Silicon에서 MLX 업스트림 Q2_0 디코드가 235 t/s라고 보고합니다. 이 빌드는 맞춤형 Metal 커널을 통해 1.7B 변종에서 442 t/s를 달성합니다(다른 프레임워크, 더 작은 모델 — 스택에서 여유 공간이 있음을 방향적으로 시사).

포함 내용

이 빌드는 M 시리즈 Mac(arm64 전용)용 드롭인 최적화 추론 패키지입니다. 358 MB tar.xz 내부:

  • chat.sh — 대화형 REPL
  • complete.sh — 비대화형 완성
  • bench.sh — 벤치마크 재현
  • server.sh — :8080에서 OpenAI 호환 HTTP API
  • Bonsai-1.7B-Q2_0.gguf — 모델 파일 (442 MB)
Ad

빠른 시작

tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh

기술적 세부 사항

모든 Metal 커널은 인간의 개입 없이 ata가 작성하고 조정했습니다. 이 작업은 Bonsai 1.7B Q2_0 디코드 경로에 특화된 matvec / FFN / KV-캐시 계층의 맞춤형 GPU 커널에 중점을 두었습니다. 수치 출력은 참조 빌드와 일치합니다(상위-1 토큰 일치 확인). M4 Max에서 테스트됨; M1+에서 비례적인 성능 향상 예상.

주의 사항

  • Apple Silicon 전용 (arm64) — Intel Mac 또는 CPU 전용 빌드 없음.
  • M4 Max 기준 수치; M1/M2/M3는 메모리 대역폭이 낮아 더 낮은 성능.
  • 모델은 Q2_0 양자화 — F16 대비 작은 정확도 차이.

📖 전체 출처 읽기: HN AI Agents

Ad

👀 See Also

펜타곤, Anthropic에 AI 윤리 규칙 철회를 위한 금요일 마감일 설정
News

펜타곤, Anthropic에 AI 윤리 규칙 철회를 위한 금요일 마감일 설정

폴리티코 보고서에 따르면, 미 국방부는 Anthropic에 금요일까지 AI 윤리 규칙을 포기하도록 요구했습니다. 이 기사는 해커 뉴스에서 15점과 3개의 댓글을 받았습니다.

OpenClawRadar
케임브리지 연구진, 저에너지 AI 칩용 하프늄 산화물 멤리스터 개발

이 번역은 다음과 같은 특징을 포함합니다:

1. "Cambridge researchers" → "케임브리지 연구진" (자연스러운 한국어 학술 표현)
2. "develop" → "개발" (기술 개발에 적합한 동사)
3. "hafnium oxide memristor
News

케임브리지 연구진, 저에너지 AI 칩용 하프늄 산화물 멤리스터 개발 이 번역은 다음과 같은 특징을 포함합니다: 1. "Cambridge researchers" → "케임브리지 연구진" (자연스러운 한국어 학술 표현) 2. "develop" → "개발" (기술 개발에 적합한 동사) 3. "hafnium oxide memristor

케임브리지 대학 연구진이 기존 산화물 기반 장치보다 전류 스위칭 속도가 백만 배 낮은 하프늄 산화물 기반 멤리스터를 개발하여 AI 하드웨어 에너지 사용량을 최대 70%까지 줄일 수 있는 가능성을 제시했습니다.

OpenClawRadar
Nvidia, 260억 달러 투입해 오픈 가중치 AI 모델에 전념하며 '네모트론 3 슈퍼' 공개
News

Nvidia, 260억 달러 투입해 오픈 가중치 AI 모델에 전념하며 '네모트론 3 슈퍼' 공개

2025년 재무 제출 자료에 따르면 엔비디아는 5년 동안 260억 달러를 투자해 오픈 소스 AI 모델을 구축할 예정입니다. 또한 회사는 벤치마크에서 GPT-OSS를 능가하고 OpenClaw 제어를 위한 PinchBench에서 1위를 차지한 1280억 파라미터 모델인 Nemotron 3 Super를 공개했습니다.

OpenClawRadar
GitHub Copilot 코드 리뷰, 2026년 6월 1일부터 Actions 분 사용
News

GitHub Copilot 코드 리뷰, 2026년 6월 1일부터 Actions 분 사용

2026년 6월 1일부터 GitHub Copilot 코드 리뷰가 프라이빗 리포지토리에서 AI 크레딧 외에도 GitHub Actions 시간을 소비합니다. 퍼블릭 리포지토리는 계속 무료입니다.

OpenClawRadar