FairyFuse、三元重み乗算なし推論によりCPU上で29.6倍のカーネル高速化を達成

✍️ OpenClawRadar📅 公開日: May 13, 2026🔗 Source

Ad

FairyFuseは、市販CPU上で三値（値は{-1,0,+1}）LLMを実行するための推論システムです。各ワイドリニア層の8つの実数値サブGEMVを、マスク付き加算と減算を用いて単一のAVX-512ループに融合することで、すべての浮動小数点乗算を排除します。ルーフラインモデル分析により、16倍の重み圧縮により、帯域幅制限のあるCPU上でメモリバウンドなGEMVが計算領域にシフトし、従来の逆量子化・乗算カーネルと比較して29.6倍のカーネル高速化を達成します。特筆すべきは、この手法はGPUではほとんど効果がないことです。

主要な結果

エンドツーエンドスループット： Intel Xeon 8558P上で毎秒32.4トークン。
llama.cpp Q4_K_Mとの比較： 1.24倍高速で、ほぼロスレス品質（WikiText-2パープレキシティはFP16の5.47に対し5.52、ダウンストリーム精度はFP16の66.0％に対して66.0％）。
重み圧縮： 三値表現により16倍（1重みあたり2ビット）— FPへの逆量子化は不要。
手法： マスク付き加算/減算を用いて8つのサブGEMVを単一のAVX-512ループに融合—浮動小数点乗算は一切なし。

背景

先行研究（Fairy2i）では、三値LLMがFP16品質に匹敵することが示されましたが、実行時にその構造を活用していませんでした。FairyFuseは、AVX-512を搭載したx86 CPU上で乗算不要の推論にアーキテクチャを再構築することで、そのギャップを埋めます。

📖 完全なソースを読む： HN LLM Tools

Ad

👀 See Also

Claude-Code v2.1.72：SSHの改善、許可プロンプトの削減、バグ修正

Claude-Code v2.1.72：SSHの改善、許可プロンプトの削減、バグ修正

Claude-Code v2.1.72は、SSHセッションと権限管理に特に焦点を当て、実用的なワークフローの改善とバグ修正を行いました。

Mar 10, 2026, 04:45 AM UTC

Claudeデイリーダイジェスト：/dream機能リリース、利用制限への反発、アクセシビリティツール

Claudeデイリーダイジェスト：/dream機能リリース、利用制限への反発、アクセシビリティツール

AnthropicはClaudeのAuto Memoryシステム向けに/dream機能をリリースしましたが、コミュニティでは利用制限に関する不満が噴出しています。また、耳の不自由な開発者がClaude Code用のターミナルフラッシュ通知プラグインを構築しました。

Mar 25, 2026, 08:45 AM UTC

サム・アルトマン、トランプ、バーニー・サンダースがAIインフラの公的所有で一致

サム・アルトマン、トランプ、バーニー・サンダースがAIインフラの公的所有で一致

サム・アルトマン、ドナルド・トランプ、バーニー・サンダースが珍しく一致：AIインフラは公有であるべき。AP通信が、公有モデルへの超党派の関心を詳しく報じている。

Jun 8, 2026, 12:16 PM UTC

Anthropicがモバイル開発向けにClaude Code Remote Controlをリリースしました。

Anthropicがモバイル開発向けにClaude Code Remote Controlをリリースしました。

Anthropicは、Claude Codeユーザーがモバイルデバイスからローカルの開発セッションを制御できる機能「Remote Control」をリリースしました。Claude Maxサブスクライバー向けに初期提供されており、バージョン2.1.52が必要で、QRコードを使用してセッションを同期します。

Feb 25, 2026, 09:45 PM UTC