AppleのlibibverbsがGPUDirect RDMAシンボルを隠蔽;macOSでゼロコピーMetalバッファRDMAが動作

✍️ OpenClawRadar📅 公開日: May 6, 2026🔗 Source
AppleのlibibverbsがGPUDirect RDMAシンボルを隠蔽;macOSでゼロコピーMetalバッファRDMAが動作
Ad

TinyGPUの調査の続報として、AppleのRDMA実装がMetal GPUバッファとのゼロコピーメモリ共有をサポートしており、隠されたシンボルが文書化されていない以前は知られていなかったGPUDirect RDMAサポートの可能性を示していることが明らかになった。

主な発見

開発者は、4ノードのMacクラスタ(3x M3 Ultra + M5 Max MacBook Pro、約1.5TB統合メモリ、Thunderbolt 5)上で、様々なメモリタイプに対してibv_reg_mr()をテストした。結果は以下の通り:

  • malloc() — 失敗(予想外、Linuxでは動作)
  • posix_memalign() — 失敗(予想外)
  • mmap(MAP_ANON) — 成功(予想通り)
  • IOSurfaceGetBaseAddress() — 成功(文書化なし)
  • MTLBuffer.contents(Metal共有) — 成功(文書化なし)

AppleのRDMAは、物理的なバッキングではなくVMマッピングタイプを検証する。ヒープ割り当ては失敗し、VMマップされたメモリ(mmap、IOSurface、Metalバッファ)は成功する——これはLinuxとは異なる重要な違いである。

ゼロコピーが証明された

64MBのmmapバッファが三重登録された:RDMAメモリ領域として、Metal GPUバッファとして、そしてIOSurfaceとして。全ての登録が同じlkey=0x101で成功し、GPUとネットワーク間のゼロコピー共有が確認された。

Ad

隠されたGPUDirect RDMAシンボル

Appleのlibibverbs.dylibnm -aで解析したところ、LinuxでGPUDirect RDMAを有効にするibv_reg_dmabuf_mrを含む文書化されていないシンボルが発見された。これはAppleがカーネルレベルの基盤を既に実装しているが、APIが公開されていないことを示唆している。

Blackwell eGPUの状況

Razer Core X V2内のRTX PRO 5000 Blackwell 72GBは検出されており(PCIeリンクアップ、x4 @ 16 GT/s、80 Gb/s TB5)、TinyGPUのDriverKit拡張もロードされる。しかし、NVIDIAのGSPファームウェアはRuntimeError: RPC call 4097 failed with result 101で失敗する。NOCATエラーデコードによりFBFLCN UNRECOGNIZED_CLIENTが明らかになった——GPUのメモリファブリックがTB5経由のPCIeピアを認識していない。これは既知の問題であり(tinygrad#15843)、AMD GPUは正常に動作する。開発者はtinygradチームとの協力を求め、TB5経由でのGSPファームウェア初期化を修正したいとしている。

対象読者

macOSのGPUコンピューティング、RDMA、またはeGPUインフラに取り組む開発者、特に分散推論やトレーニングのためのゼロコピーデータパスに関心のある方。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

なぜある開発者がコミットにAI共同作成者タグを残すのか
News

なぜある開発者がコミットにAI共同作成者タグを残すのか

ある開発者が、Gitコミットに意図的に「Co-Authored-by: Claude」を含める理由を説明し、写真撮影におけるEXIFデータとの類似性を指摘しながら、AI支援による精密なコード変更の課題について論じています。

OpenClawRadar
クロードのミニマックス論争とアンソロピックの市場ギャップ分析
News

クロードのミニマックス論争とアンソロピックの市場ギャップ分析

Claudeは、MiniMaxが数百万のAPIコールに対して支払いを行うことで合法的にトレーニングデータを取得したと主張し、Anthropicの製品ラインナップには安価で持続的なオーケストレーター向けのギャップがあると指摘しています。

OpenClawRadar
DeepSeek-V4-Flashがローカルモデル向けLLM制御を実用的に
News

DeepSeek-V4-Flashがローカルモデル向けLLM制御を実用的に

Seen Goedecke が、DeepSeek-V4-Flash が DwarfStar を介してローカルで動作するようになったことで、ステアリングベクトルが再び注目されている理由と、ステアリングの仕組み、そしてこれまで普及しなかった理由について、実践的な詳細を交えて説明しています。

OpenClawRadar
スタンフォード大学の報告書によると、AIの専門家と一般市民ではAIの影響に対する見解が分かれている。
News

スタンフォード大学の報告書によると、AIの専門家と一般市民ではAIの影響に対する見解が分かれている。

スタンフォード大学の年次AI業界報告書は、AI専門家の楽観性と一般市民の不安との間に大きな隔たりがあることを明らかにしており、専門家はAGI(汎用人工知能)のリスクに焦点を当てる一方で、一般市民は雇用、医療、光熱費などを懸念しています。

OpenClawRadar