Qwen 35B-A3Bを16GB M4 Macで常時稼働エージェントとして使う場合:RAM不足より先にディスクI/Oが問題に

✍️ OpenClawRadar📅 公開日: April 28, 2026🔗 Source
Qwen 35B-A3Bを16GB M4 Macで常時稼働エージェントとして使う場合:RAM不足より先にディスクI/Oが問題に
Ad

16GBのM4 Mac Mini(基本スペック)で、Qwen 35B-A3B MoEモデルを常時稼働エージェントとして動かすのは、理論上は可能に思えた。llama.cppで--mmap--flash-attnを使い、IQ3_XXS量子化(ディスク上12GB)では、エキスパートページングによりRAM使用量を4~6GBに抑え、--threads 8 --ctx-size 4096で約17トークン/秒を実現する。バッチツールとしてなら、このマシンでも問題なく動作する。しかし、継続的なエージェントループに拡張し、Claude Code(Opus/Sonnet)やCodex CLIと併用したところ、動作は崩壊した。その原因はRAMではなくディスクにあった。

問題が発生した構成

  • Ollamaデーモンがqwen3.5:9bqwen3.5:4bを提供(設定:OLLAMA_MAX_LOADED_MODELS=2OLLAMA_KEEP_ALIVE=10mOLLAMA_FLASH_ATTENTION=1OLLAMA_KV_CACHE_TYPE=q8_0
  • 35B用のllama-serverを別ポートで起動
  • LiteLLMブリッジがすべてをClaude互換エンドポイントとして:4000でプロキシ
  • 1~2のClaude Codeセッション
  • Codex CLIセッション
  • 通常のホームサーバー用cron、ウォッチャー、メールキュー

何が失敗したか

35Bの継続的なmmapページングと、Claude Codeのファイル監視/インデクサ、Codexのコンテキスト保持が組み合わさり、SSDの競合が常に発生した。Macは(log show --predicate 'eventMessage CONTAINS "panic"'でクラッシュログは見つからなかったが)自然に再起動し始め、バックグラウンドのcronジョブは5分以上遅れて実行され、そのまま失敗した。既知の問題として、Claude CodeとCodex CLIには長期セッションでのメモリ増加(#22968)、アイドル時のCPU占有(#19393)、プロセス蓄積(#11122)のバグが報告されている。1つのハーネスだけなら目立たないが、2つに加えてページングを行う35Bで実際のループを実行すると、最初にディスクが限界に達する。

Ad

安定した回避策

  • 35Bのllama-server LaunchDaemonを無効化(plistを.disabledにリネーム)
  • 35BのGGUFと古い26BのGemmaを削除して24GBを解放
  • Anthropic向けのルートはすべてOllamaへ:opus/sonnetはqwen3.5:9b、haikuはqwen3.5:4b
  • どちらもOllama経由でMetalに常駐(それぞれGPU約3GB+CPU約0.5GB)、アイドル時にはきれいに退避
  • LiteLLMを適切なユーザーLaunchAgentに移行(KeepAlive=trueThrottleInterval=30)— それまでは7日間、裸のpython -m litellmプロセスとして動作していた

教訓

35B-A3Bをエージェントループとして動かす夢は、別のクラスのマシンでは実現可能だ。統合16GBでは、これは単目的のバッチツールであり、常時稼働のレイヤーではない。著者は、スワップの苦痛やデーモンの競合なしにMoEエージェント推論を持続させるには、最低32GBの統合メモリが必要だと見積もっている。

もし16GBでディスク競合なく持続的に動かすコツをご存知なら、r/LocalLLaMAのスレッドはまだアクティブです。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

分析:AnthropicがClaude Codeユーザーに対して実際に負担している計算コストは、報告されている5,000ドルという数字よりもはるかに低いものです。
News

分析:AnthropicがClaude Codeユーザーに対して実際に負担している計算コストは、報告されている5,000ドルという数字よりもはるかに低いものです。

最近の記事では、Anthropicの月額200ドルのClaude Code Maxプランが5,000ドルのコンピューティングコストを消費するという主張を分析し、OpenRouterの競合オープンウェイトモデルと比較すると、実際の推論コストはAPI価格の約10%であることを明らかにしています。

OpenClawRadar
Anthropic、Claude Codeの使用制限を2倍に引き上げ、SpaceXと計算リソース契約を締結
News

Anthropic、Claude Codeの使用制限を2倍に引き上げ、SpaceXと計算リソース契約を締結

AnthropicはClaude Code ProおよびMaxサブスクライバーの5時間使用枠を倍増させ、ピーク時の制限を撤廃し、OpusのAPI制限を引き上げました。これはSpaceXとの新たな契約により、Colossus 1スーパーコンピューター(22万基以上のNVIDIA GPU)から300 MW以上の計算能力を確保したためです。

OpenClawRadar
ゴールドマン・サックスの分析によると、AIが2025年の米国GDP成長に与える影響は限定的とされる。
News

ゴールドマン・サックスの分析によると、AIが2025年の米国GDP成長に与える影響は限定的とされる。

ゴールドマン・サックスのエコノミストによると、AI投資は2025年の米国GDP成長に「基本的にゼロ」の貢献しかなかったと報告されており、輸入ハードウェアと測定不能な生産性への影響が主要な要因として挙げられています。

OpenClawRadar
Claude Code v2.1.68: Opus 4.6はデフォルトで中程度の労力を設定し、ultrathinkキーワードを再導入しました
News

Claude Code v2.1.68: Opus 4.6はデフォルトで中程度の労力を設定し、ultrathinkキーワードを再導入しました

Claude Code v2.1.68では、MaxおよびTeamサブスクライバー向けにOpus 4.6のデフォルト努力レベルをmediumに変更し、高努力のための「ultrathink」キーワードを再導入し、旧Opus 4および4.1モデルをファーストパーティAPIから削除しました。

OpenClawRadar