GLM 5 Mac M3で実走テスト：50Kトークン超で速度低下

パフォーマンスベンチマークと制限事項

開発者は、エージェント型コーディングタスクにおいて、Mac M3（512GB RAM）でMLX 4ビット量子化を用いてGLM 5をテストしました。このモデルは、コンテキストが約50,000トークン未満に保たれる場合「非常に使用可能」と評価されていますが、特にプロンプト処理中において、ClaudeのようなAPIベースのソリューションよりも大幅に遅いことが報告されています。

コンテキストが50kトークンを超えると、パフォーマンスが著しく低下します。65kトークンを処理したあるテストでは、前半が8分（67トークン/秒）で完了したのに対し、後半にはさらに18分を要し、全体の処理速度は41トークン/秒となりました。トークン生成はより高速で、大規模なコンテキストサイズでは12〜20トークン/秒と推定されています。

ワークフローの観察

ユーザーは、Opencode（エージェント型コーディングシステム）が計画が作成されると、複数ファイルにわたるコード生成を効率的に処理し、「数分間で数千トークンのコードを複数のファイルに出力し、その間に推論を行う」と述べています。プロンプト処理には通常、ファイルごとに数百行のコードを読むのに「数分」かかり、計画セッション全体で約10分が費やされます。

Opencodeにおける圧縮処理は「コンテキスト全体を再処理する傾向があるため、かなりの時間を要します」。50kトークンのコンテキスト制限では、圧縮に約5分かかります。

技術的セットアップと将来の見通し

このテストはLM Studioを使用して実施されましたが、最新のランタイム最適化が提供されていない可能性があります。ユーザーは「MLXやGGUFは、GLM 5向けにランタイムが更新されることで、プロンプト処理が高速化する可能性があるが、これよりも大幅に高速化することはおそらくないだろう」と示唆しています。

このセットアップは、70kトークン以上のコンテキストを必要とするタスクには推奨されません。これは、コンテキストサイズの制限に加え、プロンプト処理中に特定の閾値を超えた際に発生する「耐えられないほどの遅さ」によるものです。

📖 全文を読む: r/LocalLLaMA