GLM 5 on Mac M3: エージェント型コーディングにおけるパフォーマンス観察

パフォーマンスベンチマークと制限事項
開発者は、エージェント型コーディングタスクにおいて、Mac M3(512GB RAM)でMLX 4ビット量子化を用いてGLM 5をテストしました。このモデルは、コンテキストが約50,000トークン未満に保たれる場合「非常に使用可能」と評価されていますが、特にプロンプト処理中において、ClaudeのようなAPIベースのソリューションよりも大幅に遅いことが報告されています。
コンテキストが50kトークンを超えると、パフォーマンスが著しく低下します。65kトークンを処理したあるテストでは、前半が8分(67トークン/秒)で完了したのに対し、後半にはさらに18分を要し、全体の処理速度は41トークン/秒となりました。トークン生成はより高速で、大規模なコンテキストサイズでは12〜20トークン/秒と推定されています。
ワークフローの観察
ユーザーは、Opencode(エージェント型コーディングシステム)が計画が作成されると、複数ファイルにわたるコード生成を効率的に処理し、「数分間で数千トークンのコードを複数のファイルに出力し、その間に推論を行う」と述べています。プロンプト処理には通常、ファイルごとに数百行のコードを読むのに「数分」かかり、計画セッション全体で約10分が費やされます。
Opencodeにおける圧縮処理は「コンテキスト全体を再処理する傾向があるため、かなりの時間を要します」。50kトークンのコンテキスト制限では、圧縮に約5分かかります。
技術的セットアップと将来の見通し
このテストはLM Studioを使用して実施されましたが、最新のランタイム最適化が提供されていない可能性があります。ユーザーは「MLXやGGUFは、GLM 5向けにランタイムが更新されることで、プロンプト処理が高速化する可能性があるが、これよりも大幅に高速化することはおそらくないだろう」と示唆しています。
このセットアップは、70kトークン以上のコンテキストを必要とするタスクには推奨されません。これは、コンテキストサイズの制限に加え、プロンプト処理中に特定の閾値を超えた際に発生する「耐えられないほどの遅さ」によるものです。
📖 全文を読む: r/LocalLLaMA
👀 See Also

Spring Bootアプリケーション用のClaudeコードテンプレートリポジトリ
GitHubリポジトリが提供するClaude Codeテンプレートは、データベース統合、Kubernetesデプロイ、Testcontainersを使用した統合テストのベストプラクティスを備えたSpring Bootアプリケーションを生成します。

Claude-Code v2.1.111では、Opus 4.7 xhigh effort、/ultrareview、およびPowerShellツールが追加されました。
Claude-Code v2.1.111では、highとmaxの間に位置するOpus 4.7 xhighエフォートレベルを導入し、クラウドベースのマルチエージェントコードレビュー用の/ultrareviewコマンドを追加、WindowsでのPowerShellツールサポートの提供を開始しました。このアップデートには、インタラクティブな/effortコントロール、自動テーママッチング、多数のバグ修正も含まれています。

OpenClawエージェントリレープラグインがマルチエージェント設定でのTelegram配信を修正
openclaw-agent-relayプラグインは、sessions_sendの応答がTelegramではなくwebchatに送信されてしまうという継続的な問題を解決します。これは、ゲートウェイWebSocket RPCを使用してdeliver:trueでエージェントターンをトリガーし、明示的なメッセージツールやアナウンスステップなどの回避策を不要にします。

audio-analyzer-rs: Claude 用の音声分析 MCP サーバー
開発者がaudio-analyzer-rsを構築しました。これはRustで実装されたMCPサーバーで、Claudeがスペクトル分析、倍音分析、リズム分析、LUFSラウドネス(EBU R128準拠)、ダイナミックレンジ測定などの音声ファイル分析機能に直接アクセスできるようにします。このツールはトークン効率が良く、Claudeは低解像度で分析を開始し、必要に応じて小さなチャンクにズームインします。