16GB M4 Mac에서 상시 작동 에이전트로 Qwen 35B-A3B 실행 시: RAM보다 먼저 디스크 I/O 실패

✍️ OpenClawRadar📅 게시일: April 28, 2026🔗 Source
16GB M4 Mac에서 상시 작동 에이전트로 Qwen 35B-A3B 실행 시: RAM보다 먼저 디스크 I/O 실패
Ad

16GB M4 Mac Mini(기본 사양)에서 Qwen 35B-A3B MoE 모델을 항상 켜져 있는 에이전트로 실행하는 것은 이론적으로 가능해 보였습니다. llama.cpp --mmap--flash-attn 옵션을 사용하면 IQ3_XXS 양자화(디스크 12GB)가 전문가 페이징을 통해 RAM 상주를 4-6GB로 유지하며, --threads 8 --ctx-size 4096으로 약 17 tok/s를 제공합니다. 배치 도구로서는 이 머신에서 작동합니다. 그러나 Claude Code(Opus/Sonnet) 및 Codex CLI와 함께 지속적인 에이전틱 루프로 확장하려 하면 붕괴되었고, 병목은 RAM이 아닌 디스크였습니다.

문제가 발생한 설정

  • Ollama 데몬이 qwen3.5:9b + qwen3.5:4b 서빙 (설정: OLLAMA_MAX_LOADED_MODELS=2, OLLAMA_KEEP_ALIVE=10m, OLLAMA_FLASH_ATTENTION=1, OLLAMA_KV_CACHE_TYPE=q8_0)
  • 35B용 llama-server는 별도 포트에서 실행
  • LiteLLM 브리지가 모든 것을 Claude 호환 엔드포인트로 프록시 (:4000)
  • 하나 또는 두 개의 Claude Code 세션
  • Codex CLI 세션
  • 일반적인 홈 서버 cron, 감시자, 메일 큐

실패한 부분

35B의 지속적인 mmap 페이징 + Claude Code의 파일 감시자/인덱서 + Codex의 컨텍스트 유지로 인해 SSD 경합이 계속 발생했습니다. Mac이 자발적으로 재부팅되기 시작했고 (log show --predicate 'eventMessage CONTAINS "panic"'에서 크래시 로그 없음), 백그라운드 cron 작업이 5분 이상 지연된 후 조용히 실패했습니다. 알려진 문제로는 Claude Code 및 Codex CLI에 긴 세션에서 메모리 증가(#22968), 유휴 CPU 고정(#19393), 프로세스 누적(#11122)에 대한 버그가 있습니다. 하나의 하네스에서는 보이지 않지만, 두 개에 페이징하는 35B가 실제 루프를 돌면 디스크가 먼저 죽습니다.

Ad

안정적인 해결 방법

  • 35B llama-server LaunchDaemon 비활성화 (plist를 .disabled로 이름 변경)
  • 35B GGUF 및 오래된 26B Gemma를 삭제하여 24GB 회수
  • 모든 Anthropic 형태의 경로는 Ollama로 이동: qwen3.5:9b는 opus/sonnet용, qwen3.5:4b는 haiku용
  • 둘 다 Ollama를 통해 Metal 상주 (각각 GPU ~3GB + CPU 0.5GB), 유휴 시 깔끔하게 제거
  • LiteLLM을 적절한 사용자 LaunchAgent로 이동 (KeepAlive=true, ThrottleInterval=30) — 이전에는 7일 동안 python -m litellm 프로세스로 실행 중이었음

결론

35B-A3B를 에이전트 루프로 사용하는 꿈은 다른 등급의 머신에서 실현 가능합니다. 통합 16GB에서는 단일 목적 배치 도구일 뿐, 항상 켜져 있는 레이어가 아닙니다. 저자는 스왑 문제나 데몬 경합 없이 지속적인 MoE 에이전트 추론을 위해 최소 32GB 통합 메모리가 필요하다고 추정합니다.

디스크 경합 없이 16GB에서 지속적으로 실행하는 방법을 알고 계신다면, r/LocalLLaMA 스레드가 아직 활성화되어 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

레딧 사용자가 클로드의 시간적 인식 격차 해결을 위한 타임스탬프 기능을 제안합니다.
News

레딧 사용자가 클로드의 시간적 인식 격차 해결을 위한 타임스탬프 기능을 제안합니다.

레딧 사용자가 Claude의 시간 인식 부재를 생산성 사용 사례의 한계로 지적하며, 모든 응답에 날짜와 시간을 표시하고 세션 간에 지속되는 선택적 타임스탬프 기능을 제안합니다.

OpenClawRadar
Anthropic, 새로운 신용 시스템으로 OpenClaw 제한: 세부사항과 영향
News

Anthropic, 새로운 신용 시스템으로 OpenClaw 제한: 세부사항과 영향

Anthropic이 OpenClaw를 다시 제한합니다: 2026년 6월 15일부터 모든 프로그래밍 방식 사용이 별도의 크레딧 풀로 이동하며, 월별 상한, 이월 불가, API 요금 초과 청구가 적용됩니다.

OpenClawRadar
Anthropic, 클로드 제한을 늘리고 SpaceX 컴퓨팅 용량 추가
News

Anthropic, 클로드 제한을 늘리고 SpaceX 컴퓨팅 용량 추가

Anthropic이 Claude 사용 한도를 늘리고 SpaceX와 컴퓨팅 계약을 체결했습니다. Reddit 토론에서는 이것이 단순한 인프라 확장인지, 아니면 Claude를 에이전트 작업에 더 적합한 플랫폼으로 만들기 위한 전략적 움직임인지 논의하고 있습니다.

OpenClawRadar
Opus 4.6 확장 사고 방식은 물리학 다이어그램 문제에서 더 낮은 성능을 보입니다
News

Opus 4.6 확장 사고 방식은 물리학 다이어그램 문제에서 더 낮은 성능을 보입니다

테스트 결과, 확장 사고 모드를 사용한 Claude Opus 4.6은 시각적 다이어그램 해석이 필요한 물리학 문제에서 지속적으로 실패하는 반면, Gemini 3.1 Pro는 성공했습니다. 확장 사고를 비활성화하면 Opus 4.6이 동일한 문제를 정확하고 더 빠르게 해결할 수 있습니다.

OpenClawRadar