Mac Mini에서 OpenClaw와 LM Studio를 사용한 로컬 LLM 성능 벤치마크

한 레딧 사용자가 32GB RAM을 탑재한 Mac Mini에서 로컬 대규모 언어 모델을 실행한 구체적인 성능 벤치마크를 공유했습니다. 이 게시물은 이 하드웨어 구성에 대한 구체적인 성능 데이터가 부족한 점을 다루고 있습니다.
기술 설정 상세 정보
사용자는 다음과 같은 구성과 결과를 보고했습니다:
- 소프트웨어 버전: OpenClaw 2026.3.8, LM Studio 0.4.6+1
- 모델: Unsloth gpt-oss-20b-Q4_K_S.gguf
- 컨텍스트 크기: 26035
- 성능 지표: 첫 프롬프트 이후 초당 34토큰, 초기 토큰까지 0.7초
모델 구성
사용자는 다음 모델 설정을 지정했습니다(모두 기본값):
- GPU 오프로드 = 18
- CPU 스레드 풀 크기 = 7
- 최대 동시 실행 수 = 4
- 전문가 수 = 4
- 플래시 어텐션 = 켜짐
Q4_K_S 양자화는 이 모델이 200억 개의 매개변수를 가진 모델의 4비트 양자화 버전임을 나타내며, 이는 합리적인 성능을 유지하면서 메모리 요구 사항을 줄입니다. Mac Mini의 32GB RAM은 주어진 컨텍스트 길이로 이 모델 크기에 충분합니다. 초당 34토큰의 처리량은 Apple Silicon 하드웨어에서 유사한 로컬 LLM 설정을 고려하는 개발자들에게 실용적인 벤치마크입니다.
📖 Read the full source: r/openclaw
👀 See Also

언슬로스 스튜디오는 로컬 AI 파인튜닝 시 2배 빠른 학습 속도와 70% 감소된 VRAM 사용량을 가능하게 합니다.
Unsloth Studio는 2배 빠른 학습 속도와 70% VRAM 감소를 제공하며 로컬 하드웨어에서 언어 모델을 학습 및 파인튜닝할 수 있는 도구를 제공합니다. Ollama와 함께 사용하기 위해 GGUF 형식으로 모델을 내보내는 것을 지원하며, RTX 4090과 같은 24GB 하드웨어에서 완전한 로컬 AI 코딩 워크플로우를 가능하게 합니다.

오픈소스 MCP 메모리 서버 - 지식 그래프 및 학습 기능 포함
Rust로 작성된 오픈소스 MCP 서버가 지식 그래프 아키텍처, 헤비안 학습, 하이브리드 검색을 통해 AI 에이전트에 지속적 메모리를 제공합니다. 7.6MB 크기에 밀리초 미만의 지연 시간을 가지며 모든 MCP 호환 클라이언트와 작동합니다.

PinchBench 결과: 최초의 OpenClaw 전용 AI 코딩 에이전트 벤치마크
OpenClaw 전용 첫 벤치마크인 PinchBench은 성공률, 비용, 속도로 32개의 AI 모델을 순위 매겼으며, Google의 Gemini-3-Flash-Preview가 95.1% 성공률에 0.72달러로 선두를 달리고 있습니다.

오픈소스 Next.js 스타터 키트, AI 쓰레기 방지를 위한 가드레일 및 에이전트 지침 추가
새로운 Next.js 보일러플레이트에는 인증, 데이터베이스, CI, 테스트, Claude Code 지침이 기본 내장되어 있어, AI 코딩 에이전트를 사용해 프로덕션 앱을 더 빠르게 구축하려는 개발자를 대상으로 합니다.