Le libibverbs d'Apple masque les symboles GPUDirect RDMA ; le tampon Metal à copie zéro RDMA fonctionne sur macOS

Un suivi de l'enquête TinyGPU révèle que l'implémentation RDMA d'Apple prend en charge le partage de mémoire sans copie avec les tampons GPU Metal, et des symboles cachés indiquent une possible prise en charge de GPUDirect RDMA — non documentée et jusqu'alors inconnue.
Résultats clés
Le développeur a testé ibv_reg_mr() avec différents types de mémoire sur un cluster Mac de 4 nœuds (3x M3 Ultra + M5 Max MacBook Pro, ~1,5 To de mémoire unifiée, Thunderbolt 5). Résultats :
malloc()— ÉCHEC (inattendu ; fonctionne sous Linux)posix_memalign()— ÉCHEC (inattendu)mmap(MAP_ANON)— RÉUSSI (attendu)IOSurfaceGetBaseAddress()— RÉUSSI (non documenté)MTLBuffer.contents(Metal partagé) — RÉUSSI (non documenté)
Le RDMA d'Apple valide le type de mappage VM, pas le support physique. Les allocations sur le tas échouent ; la mémoire mappée en VM (mmap, IOSurface, tampons Metal) réussit — une différence clé avec Linux.
Zéro copie prouvé
Un tampon mmap de 64 Mo a été enregistré trois fois : en tant que région mémoire RDMA, tampon GPU Metal et IOSurface. Tous les enregistrements ont réussi avec le même lkey=0x101, confirmant le partage sans copie entre le GPU et le réseau.
Symboles GPUDirect RDMA cachés
L'analyse du libibverbs.dylib d'Apple via nm -a a révélé des symboles non documentés, dont ibv_reg_dmabuf_mr, qui sous Linux active GPUDirect RDMA. Cela suggère qu'Apple a déjà implémenté la couche noyau, mais l'API n'est pas exposée publiquement.
Statut eGPU Blackwell
Le RTX PRO 5000 Blackwell 72 Go dans un Razer Core X V2 est détecté (liaison PCIe active, x4 @ 16 GT/s, 80 Gb/s TB5), et l'extension DriverKit de TinyGPU se charge. Cependant, le firmware GSP de NVIDIA échoue avec RuntimeError: RPC call 4097 failed with result 101. Le décodage NOCAT révèle FBFLCN UNRECOGNIZED_CLIENT — le fabric de mémoire du GPU ne reconnaît pas le pair PCIe via TB5. C'est un problème connu (tinygrad#15843) ; les GPU AMD fonctionnent correctement. Le développeur demande une collaboration avec l'équipe tinygrad pour corriger l'initialisation du firmware GSP via TB5.
À qui cela s'adresse
Développeurs travaillant sur le calcul GPU macOS, RDMA ou l'infrastructure eGPU, particulièrement ceux intéressés par les chemins de données sans copie pour l'inférence ou l'entraînement distribué.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Analyse de Claude sur le débat Minimax et l'écart de marché d'Anthropic
Claude soutient que MiniMax a légalement obtenu des données d'entraînement en payant des millions d'appels API et identifie un manque dans la gamme de produits d'Anthropic pour un orchestrateur persistant et bon marché.

Qwen3.5-122B sur Blackwell SM120 : Problème de corruption du cache KV en fp8 et résultats de performance
Le test de Qwen3.5-122B sur du matériel 8x RTX PRO 6000 Blackwell a révélé que le cache KV fp8_e4m3 produit silencieusement des sorties corrompues sans erreurs, nécessitant plutôt un cache KV bf16. L'optimisation MTP a fourni une accélération de 2,75x pour les requêtes uniques, tandis que les contraintes de DeltaNet ont bloqué d'autres optimisations.

OpenClaw 2026.3.28 : Changements majeurs pour les utilisateurs de MiniMax, suppression de la réparation automatique de la configuration
OpenClaw 2026.3.28 supprime la réparation automatique des clés de configuration obsolètes et élimine plusieurs modèles MiniMax. Les utilisateurs doivent mettre à jour leurs configurations avant la mise à niveau pour éviter les échecs de démarrage de la passerelle.

Anthropic restreint l'utilisation des abonnements Claude avec des interfaces tierces, y compris OpenClaw
Anthropic a annoncé qu'à partir du 4 avril à 12h PT/20h BST, les limites d'abonnement Claude ne pourront plus être utilisées avec des outils tiers comme OpenClaw. Les utilisateurs devront activer une utilisation supplémentaire avec une facturation séparée au paiement à l'usage pour ces intégrations.