フィールドレポート:M2 MacBook Pro(32GB)上のQwen 3.6 27B – 遅いが賢い出力

✍️ OpenClawRadar📅 公開日: April 29, 2026🔗 Source
フィールドレポート:M2 MacBook Pro(32GB)上のQwen 3.6 27B – 遅いが賢い出力
Ad

r/LocalLLaMAの開発者が、M2 MacBook Pro(32GB RAM)でQwen 3.6 27B(IQ4_XS unsloth量子化)をテストしました。予想通り、27Bの高密度モデルにはマシンのスペックが不足していますが、このフィールドレポートは具体的な数値とパフォーマンスおよび出力品質に関する現実的な評価を提供しています。

コマンドとセットアップ

モデルはllama-serverを使用して以下のコマンドで提供されました:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

注目すべき選択:GPUへの過負荷を避けるためのシングルプロセス(-np 1)、ngram-modによる投機的デコード、コンテキストウィンドウ131072トークン。

パフォーマンスの内訳

初期速度:プロンプト処理80 t/s、トークン生成7.9 t/s。52,000トークンのコンテキストで、パフォーマンスはプロンプト処理4 t/sに低下(著者はタイポではないと確認)、トークン生成は3.1 t/sに。メモリプレッシャーがレッドゾーンに入ることはなく、ボトルネックがスワップではなくメモリ帯域幅であることを示しています。

投機的デコードは効果なし

レポーターはngram-mod投機的デコードを有効にしましたが、実質的なメリットは見られませんでした。ログには:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

n-gramマッチの低さによりモデルが常にリセット。見かけ上の100%受入率は、小さなサンプルサイズによるアーティファクトです。著者は、このような高密度モデルはngram-modアプローチがうまく機能するほど繰り返しが多くないと結論付けています。

Ad

コード品質

速度の遅さにもかかわらず、Qwen 3.6 27Bが生成したコードは優れていると評価されました。追加のプロンプトなしで大規模なコードベースを分析し、品質面でQwen 35B A3B(MoE)モデルを上回りました。著者は出力を、セルフホストのClaude Sonnetに期待されるものと比較し、Claude Opus 4.7でさえ感銘を受けたと述べています。

主なポイント

  • メモリ帯域幅が高密度モデルを左右する: Apple Siliconでは、コンテキストが増えるにつれてトークン生成が半減。スワップがなくても、帯域幅の制限がパフォーマンスを低下させた。
  • シングルプロセスが最適: このハードウェアで同時エージェントタスクを実行してもメリットはなく、単に直列キューイングになるだけ。
  • 投機的デコードはモデル依存: ここではngram-modは効果がなく、モデルの繰り返しの少なさがドラフトマッチを妨げた。

著者は、Qwen 3.6 27BをクラウドGPU(R9700と同等のスペック、現在Amazonで約1,400ドル、eBayではそれ以上)でテストし、自身のプログラミングタスクでの真の性能を評価する予定です。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

モデルルーティングがClaude Maxサブスクリプションと比較してAPIコストを85%削減——開発者による分析
Tips

モデルルーティングがClaude Maxサブスクリプションと比較してAPIコストを85%削減——開発者による分析

Claude Maxの加入者がトークン使用量を追跡したところ、Opusが必要だったタスクはわずか15%であることが判明。APIルーティング(日常タスクはSonnet、高度な推論はOpus)に切り替えたところ、月額コストが200ドルから約30ドルに削減され、出力品質は同一だった。

OpenClawRadar
OpenClaw 2026.3.22 アップグレード後の Control UI アセットエラーの回避策
Tips

OpenClaw 2026.3.22 アップグレード後の Control UI アセットエラーの回避策

OpenClaw 2026.3.22へのアップグレード後に発生する「Control UI assets not found」エラーの解決策として、ユーザーがベータ版インストールからcontrol-uiフォルダを安定版リリースにコピーする方法を共有しました。

OpenClawRadar
信頼性の高いAIスキル実行のためのプロンプト構造改善
Tips

信頼性の高いAIスキル実行のためのプロンプト構造改善

ある開発者が、市場分析スキルを手動介入なしでエンドツーエンドで実行できるようにした2つの重要なプロンプト修正を共有しました:スキルが返すべきものと行うべきものを明確に分離すること、および即興を防ぐための明示的な失敗条件の定義です。

OpenClawRadar
Claude Codeの100万トークンコンテキストウィンドウを無効にしてトークン使用量を削減する方法
Tips

Claude Codeの100万トークンコンテキストウィンドウを無効にしてトークン使用量を削減する方法

Anthropicユーザーは、settings.jsonに環境変数を追加することでClaude Codeの1Mコンテキストウィンドウを無効にでき、予期せぬトークン消費を減らせる可能性があります。ソースでは、1Mコンテキストを完全に無効にするか、自動圧縮ウィンドウに上限を設ける2つの設定オプションが提供されています。

OpenClawRadar