M5 Max에서 Flash-MOE 벤치마크: Qwen3.5-397B로 12.99 토큰/초

성능 결과
한 사용자가 128GB 통합 메모리를 탑재한 M5 Max MacBook Pro에서 flash-moe 구현을 벤치마크했으며, mlx-community/Qwen3.5-397B-A17B-4bit 모델을 실행했습니다. Dan Woods가 48GB RAM을 탑재한 M3 Max에서 수행한 원본 벤치마크는 초당 4.36 토큰을 달성했습니다. M5 Max에서는 4비트 양자화와 cache-io-split 없이 기본 설정으로 초당 12.48 토큰에 도달했습니다. 최적의 --cache-io-split 4 설정으로 성능이 초당 12.99 토큰으로 향상되어 원본 벤치마크보다 세 배 빠른 속도를 보였습니다.
Cache-IO-Split 분석
사용자는 M5+ 칩을 위한 Metal 4 NAX 지원을 추가한 Anemll 포크의 flash-moe를 사용하여 cache-io-split 값을 완전히 검증했습니다. 결과에 따르면 split 2와 3은 성능을 저하시키는 반면, split 4가 최적의 성능을 제공합니다:
- cache-io-split 1 (없음): 12.48 tok/s, 토큰당 28.4ms 전문가 I/O
- cache-io-split 2: 9.94 tok/s, 토큰당 28.2ms 전문가 I/O
- cache-io-split 3: 9.99 tok/s, 토큰당 36.1ms 전문가 I/O
- cache-io-split 4: 12.99 tok/s, 토큰당 25.9ms 전문가 I/O
- cache-io-split 5: 12.64 tok/s, 토큰당 27.5ms 전문가 I/O
- cache-io-split 8: 12.90 tok/s, 토큰당 26.4ms 전문가 I/O
분석에 따르면 split 4는 M5 Max SSD 컨트롤러의 내부 병렬 처리와 일치하는 반면, 더 높은 값은 스케줄링 오버헤드를 추가합니다. 권장 사항은 --cache-io-split 4를 사용하거나 아예 split을 사용하지 않으면서 split 2와 3은 피하는 것입니다.
양자화 비교
2비트 대 4비트 양자화 테스트 결과, M5 Max에서는 2비트가 속도 이점을 제공하지 않으며, SSD 속도로 인해 더 작은 파일이 필요하지 않고 디양자화 오버헤드가 모든 이득을 상쇄합니다. 2비트에서는 품질이 크게 저하됩니다:
- 4비트: 12.99 tok/s, WikiText-2에서 3.64 퍼플렉시티
- 2비트: ~12.65 tok/s, WikiText-2에서 5.71 퍼플렉시티 (57% 더 나쁨)
결론은 속도를 희생하지 않고 더 나은 품질을 위해 4비트 양자화를 사용하는 것입니다.
기술적 세부사항
벤치마크는 https://github.com/Anemll/flash-moe에서 사용 가능한 Anemll 포크를 사용했습니다. 지속적인 성능은 1000 토큰 동안 초당 11.23 토큰으로 안정적으로 유지되었으며 성능 저하는 없었습니다. 사용자는 LM Studio와 같은 Metal/GPU를 사용하는 백그라운드 프로세스가 성능에 상당한 영향을 미칠 수 있으므로 벤치마크 중에는 종료해야 한다고 언급했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

AI 코딩 도구의 실제 비용: 60일당 42시간의 오버헤드 — 독립 개발자의 상세 분석
한 명의 개인 개발자가 60일 동안 AI 코딩 도구에 쓴 모든 돈과 시간을 추적했습니다. 구독료($200/월)는 가장 작은 비용이었고, 잘못된 출력과 도구 전환으로 인한 42시간의 오버헤드가 실제 부담이었습니다. 순 생산성 향상은 10배가 아닌 1.7~2배였습니다. 놀라운 점: CodeRabbit이라는 월 15달러짜리 리뷰 도구가 ROI가 가장 높았습니다.

휴대용 마인드 형식(PMF): 15개의 오픈소스 에이전트를 지원하는 공급자 독립적 에이전트 사양
Portable Mind Format(PMF)는 Claude, GPT-4, Gemini, DeepSeek 및 Ollama를 통한 로컬 모델을 포함한 여러 모델과 제공자에서 실행할 수 있는 AI 에이전트 신원을 정의하기 위한 JSON 기반 사양입니다. 여기에는 15개의 MIT 라이선스 프로덕션 에이전트와 Claude Code, Cursor, GitHub Copilot, Gemini CLI용 변환기가 포함됩니다.

펨토봇: 저자원 환경을 위한 효율적인 러스트 에이전트
펨토봇은 저사양 머신에서 효율적으로 실행되도록 설계된 경량 Rust 기반 AI 에이전트로, 약 10MB의 바이너리로 대규모 런타임 종속성 없이 구동됩니다.

클로드 코드 LSP: 더 빠르고 정확한 코드 탐색을 위한 언어 서버 프로토콜 지원
Claude Code는 기본적으로 LSP가 비활성화된 상태로 제공되지만, 이를 활성화하면 30-60초 걸리는 grep 검색에서 50ms 쿼리로 코드 탐색이 변하며 100% 정확도를 제공합니다. 설정에는 공식 문서가 아닌 GitHub 이슈를 통해 발견된 플래그가 필요합니다.