M4 Max에서 자체 튜닝된 메탈 커널로 초당 442토큰을 기록한 Bonsai 1.7B 삼진 모델

PrismML의 삼진 모델인 Bonsai 1.7B가 자율 튜닝된 Metal 커널을 사용하여 Apple Silicon에 최적화되었습니다. 이 작업은 Agents2Agents의 자율 엔지니어링 에이전트인 ata가 수행했으며, 6시간 동안 에이전틱 진화 검색을 실행하여 맞춤형 GPU 커널을 생성했습니다.
벤치마크 결과
동일한 Bonsai/Q2_0 커밋의 상위 llama.cpp와 M4 Max에서 측정(동일한 모델 파일, 동일한 llama-bench -p 512 -n 128 -r 10 -fa 1 -ngl 99 구성):
- 디코드 (tg128): 311.66 → 442.42 t/s (+42.0%)
- 프리필 (pp512): 4250.32 → 4622.63 t/s (+8.8%)
참고로 Bonsai 8B 백서에서는 Apple Silicon에서 MLX 업스트림 Q2_0 디코드가 235 t/s라고 보고합니다. 이 빌드는 맞춤형 Metal 커널을 통해 1.7B 변종에서 442 t/s를 달성합니다(다른 프레임워크, 더 작은 모델 — 스택에서 여유 공간이 있음을 방향적으로 시사).
포함 내용
이 빌드는 M 시리즈 Mac(arm64 전용)용 드롭인 최적화 추론 패키지입니다. 358 MB tar.xz 내부:
chat.sh— 대화형 REPLcomplete.sh— 비대화형 완성bench.sh— 벤치마크 재현server.sh— :8080에서 OpenAI 호환 HTTP APIBonsai-1.7B-Q2_0.gguf— 모델 파일 (442 MB)
빠른 시작
tar -xJf bonsai-1.7b-ternary-M4Max.tar.xz
cd bonsai-1.7b-ternary-M4Max
./chat.sh기술적 세부 사항
모든 Metal 커널은 인간의 개입 없이 ata가 작성하고 조정했습니다. 이 작업은 Bonsai 1.7B Q2_0 디코드 경로에 특화된 matvec / FFN / KV-캐시 계층의 맞춤형 GPU 커널에 중점을 두었습니다. 수치 출력은 참조 빌드와 일치합니다(상위-1 토큰 일치 확인). M4 Max에서 테스트됨; M1+에서 비례적인 성능 향상 예상.
주의 사항
- Apple Silicon 전용 (arm64) — Intel Mac 또는 CPU 전용 빌드 없음.
- M4 Max 기준 수치; M1/M2/M3는 메모리 대역폭이 낮아 더 낮은 성능.
- 모델은 Q2_0 양자화 — F16 대비 작은 정확도 차이.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

펜타곤, Anthropic에 AI 윤리 규칙 철회를 위한 금요일 마감일 설정
폴리티코 보고서에 따르면, 미 국방부는 Anthropic에 금요일까지 AI 윤리 규칙을 포기하도록 요구했습니다. 이 기사는 해커 뉴스에서 15점과 3개의 댓글을 받았습니다.

케임브리지 연구진, 저에너지 AI 칩용 하프늄 산화물 멤리스터 개발 이 번역은 다음과 같은 특징을 포함합니다: 1. "Cambridge researchers" → "케임브리지 연구진" (자연스러운 한국어 학술 표현) 2. "develop" → "개발" (기술 개발에 적합한 동사) 3. "hafnium oxide memristor
케임브리지 대학 연구진이 기존 산화물 기반 장치보다 전류 스위칭 속도가 백만 배 낮은 하프늄 산화물 기반 멤리스터를 개발하여 AI 하드웨어 에너지 사용량을 최대 70%까지 줄일 수 있는 가능성을 제시했습니다.

Nvidia, 260억 달러 투입해 오픈 가중치 AI 모델에 전념하며 '네모트론 3 슈퍼' 공개
2025년 재무 제출 자료에 따르면 엔비디아는 5년 동안 260억 달러를 투자해 오픈 소스 AI 모델을 구축할 예정입니다. 또한 회사는 벤치마크에서 GPT-OSS를 능가하고 OpenClaw 제어를 위한 PinchBench에서 1위를 차지한 1280억 파라미터 모델인 Nemotron 3 Super를 공개했습니다.

GitHub Copilot 코드 리뷰, 2026년 6월 1일부터 Actions 분 사용
2026년 6월 1일부터 GitHub Copilot 코드 리뷰가 프라이빗 리포지토리에서 AI 크레딧 외에도 GitHub Actions 시간을 소비합니다. 퍼블릭 리포지토리는 계속 무료입니다.