llama.cpp Arc GPU 3.1倍高速化：Q8

llama.cppのSYCLバックエンドに対するパフォーマンス最適化修正により、Intel Arc GPU上で実行されるQ8_0量子化モデルの大幅な速度向上が実現されました。この修正は、Q8_0のパフォーマンスを理論帯域幅のわずか21%に制限していたメモリアクセスパターンの問題に対処しています。

パフォーマンス問題と根本原因

32GB GDDR6と608 GB/s帯域幅を備えたIntel Arc Pro B70 GPUでは、Q8_0モデルはわずか4.88トークン/秒で実行されていたのに対し、Q4_K_Mは20.56トークン/秒を達成していました。Q8_0がQ4_K_Mよりも1.7倍しかデータ量が多くないことを考慮すると、この4倍のパフォーマンス差は予想外でした。

VRAM圧力、ドライバー問題、バックエンドの問題を除外した後、調査はボトルネックがllama.cppのSYCLカーネルディスパッチパスにあることを突き止めました。SYCLバックエンドには、GPUメモリアクセスを効率化するために量子化スケール係数を重みデータから分離する「並べ替え」最適化が含まれています。この最適化はQ4_0、Q4_K、Q6_K量子化に対して実装されていましたが、Q8_0は並べ替えフレームワークに追加されていませんでした。

Q8_0の34バイトブロック（2のべき乗ではない）は、並べ替えられていないレイアウトにおいて特にGPUキャッシュパフォーマンスを非効率にしていました。

修正と結果

解決策には、既存の並べ替えフレームワークを拡張してQ8_0をサポートする約200行のコードが含まれました。最も重要なバグは単一行の問題でした：Q8_0テンソルはバッファ初期化中に「追加」構造体が割り当てられず、並べ替えフラグが設定されない原因となっていました。

Qwen3.5-27B（Intel Arc Pro B70）での結果：

修正前Q8_0：4.88 t/s（21%帯域幅）
修正後Q8_0：15.24 t/s（66%帯域幅）- 3.1倍高速化
Q4_K_M：20.12 t/s（変化なし）
Q6_K：13.83 t/s（並べ替えなし）

この修正により、Q8_0は低ビット量子化よりも高品質を提供しながら、Q6_Kを上回る性能（15.24対13.83トークン/秒）を発揮するようになりました。

検証と実装

修正を実装する前に、チームはIntelのクローズドソースIPEX-LLMをバイナリパッチしてB70 GPU上で実行し（公式にはPCIデバイスIDでサポートされていない）、最適化されたQ8_0カーネルが61%の帯域幅を達成することを確認し、問題が解決可能であることを実証しました。llama.cppでのオープンソース実装は66%の帯域幅を達成しています。

この修正はllama.cppリポジトリへのプルリクエストとして提出されました。

📖 Read the full source: r/LocalLLaMA