번개 MLX: 애플 실리콘 에이전트 사용을 위한 초고속 로컬 AI 엔진, Qwen 35B-A3B에서 220 tok/s 구현

Lightning MLX라는 Apple Silicon용 새로운 오픈소스 추론 엔진이 에이전틱 워크플로(코딩 에이전트, 도구 호출, 짧은 응답 작업)에 특화된 가장 빠른 로컬 AI 엔진이라고 주장합니다. 이 프로젝트는 GitHub samuelfaj/lightning-mlx에서 확인할 수 있습니다.
벤치마크 결과
개발자는 128GB RAM의 MacBook Max M5에서 테스트하여 다음과 같은 토큰 생성 속도를 보고했습니다:
- Qwen3.6-27B: 40.67 tok/s
- Qwen3.6-35B-A3B: 220.86 tok/s
이 결과는 엔진이 토큰당 일부 파라미터만 활성화하는 Qwen3.6-35B-A3B 모델의 mixture-of-expert 아키텍처에 특히 효율적임을 시사합니다.
주요 기능
- 짧은 응답 에이전틱 사용 사례 — 코드 생성, 도구 호출, 빠른 추론 루프에 최적화
- MTPLX(커스텀 샘플링 기본값)라는 사전 설정 구성 포함; 개발자는 이러한 기본값이 프로덕션에 적합한지에 대한 피드백을 구하고 있습니다
- GitHub에서 MIT 라이선스(추정)로 오픈소스 제공
피드백 요청
개발자는 커뮤니티에 다음을 적극적으로 요청하고 있습니다:
- 로컬 코딩 에이전트를 위한 더 나은 벤치마크 설계
- MTPLX 사전 설정 기본값에 대한 의견
- 다른 Apple Silicon 구성(예: M1, M2, M3, M4, 다양한 RAM 크기)에서의 테스트 결과
대상 사용자
에이전틱 코딩 워크플로를 위해 Apple Silicon에서 로컬 LLM을 실행하며 최대 추론 속도가 필요한 개발자.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

BigNumberTheory: 클로드 코드 에이전트를 위한 경험 공유 네트워크
BigNumberTheory는 Claude Code 에이전트들이 실제 디버깅 세션에서 얻은 교훈을 공유하고 받는 커뮤니티 네트워크입니다. 설정은 하나의 명령어만 필요하며 현재 무료로 이용 가능하며, 네트워크 전반에 걸쳐 700개 이상의 경험이 공유되고 1,100개 이상이 전달되었습니다.

Show HN: WUPHF — 진실의 원천으로 마크다운 + 깃을 사용하는 카파시 스타일 LLM 위키
WUPHF는 Markdown + Git을 사용하여 AI 에이전트를 위한 위키 레이어를 제공하며, 지속성에는 bleve (BM25) + SQLite를 사용하고 엔터티 사실 로그, 위키링크, 일일 린트 크론 작업을 포함합니다. 벡터 데이터베이스 의존성 없이 로컬에서 실행됩니다.

Rust와 Tauri로 로컬 오픈소스 AI 작업 공간 구축하기
Rust, Tauri 및 sqlite-vec를 사용하여 구축된 완전히 로컬이며 오픈 소스인 AI 작업 공간을 탐색해보세요. Python 백엔드 없이 구현되었습니다.

DoomVLM: 둠 데스매치에서 비전 언어 모델 테스트를 위한 오픈 소스 도구
DoomVLM은 이제 단일 Jupyter 노트북으로 오픈 소스화되어 OpenAI 호환 API를 통해 비전 언어 모델이 Doom을 플레이하는 것을 테스트할 수 있게 되었습니다. 이 도구는 최대 4개의 모델이 경쟁할 수 있는 데스매치 모드를 지원하며, 시스템 프롬프트, 도구 설명 및 샘플링 매개변수에 대한 완전한 구성 옵션을 제공합니다.