El libibverbs de Apple oculta los símbolos de GPUDirect RDMA; el búfer Metal de copia cero RDMA funciona en macOS

✍️ OpenClawRadar📅 Publicado: 6 de mayo de 2026🔗 Source
El libibverbs de Apple oculta los símbolos de GPUDirect RDMA; el búfer Metal de copia cero RDMA funciona en macOS
Ad

Una continuación de la investigación TinyGPU revela que la implementación RDMA de Apple admite el uso compartido de memoria de copia cero con búferes de Metal GPU, y símbolos ocultos indican un posible soporte para GPUDirect RDMA, no documentado y previamente desconocido.

Hallazgos clave

El desarrollador probó ibv_reg_mr() con varios tipos de memoria en un clúster Mac de 4 nodos (3x M3 Ultra + M5 Max MacBook Pro, ~1,5 TB de memoria unificada, Thunderbolt 5). Resultados:

  • malloc() — FALLO (inesperado; funciona en Linux)
  • posix_memalign() — FALLO (inesperado)
  • mmap(MAP_ANON) — ÉXITO (esperado)
  • IOSurfaceGetBaseAddress() — ÉXITO (sin documentación)
  • MTLBuffer.contents (Metal compartido) — ÉXITO (sin documentación)

RDMA de Apple valida el tipo de mapeo VM, no el respaldo físico. Las asignaciones de heap fallan; la memoria mapeada por VM (mmap, IOSurface, búferes de Metal) pasa, una diferencia clave con Linux.

Copia cero comprobada

Un búfer mmap de 64 MB se registró tres veces: como región de memoria RDMA, como búfer de Metal GPU y como IOSurface. Todos los registros se realizaron con éxito con el mismo lkey=0x101, confirmando el uso compartido de copia cero entre la GPU y la red.

Ad

Símbolos ocultos de GPUDirect RDMA

El análisis de libibverbs.dylib de Apple mediante nm -a reveló símbolos no documentados, incluido ibv_reg_dmabuf_mr, que en Linux habilita GPUDirect RDMA. Esto sugiere que Apple ya implementó la infraestructura a nivel de kernel, pero la API no está expuesta públicamente.

Estado de Blackwell eGPU

La RTX PRO 5000 Blackwell 72 GB en un Razer Core X V2 se detecta (enlace PCIe activo, x4 @ 16 GT/s, 80 Gb/s TB5), y la extensión DriverKit de TinyGPU se carga. Sin embargo, el firmware GSP de NVIDIA falla con RuntimeError: RPC call 4097 failed with result 101. La decodificación de error NOCAT revela FBFLCN UNRECOGNIZED_CLIENT: la tela de memoria de la GPU no reconoce el peer PCIe a través de TB5. Este es un problema conocido (tinygrad#15843); las GPU AMD funcionan bien. El desarrollador solicita colaboración con el equipo de tinygrad para solucionar la inicialización del firmware GSP a través de TB5.

Para quién es esto

Desarrolladores que trabajan en cómputo GPU en macOS, RDMA o infraestructura eGPU, especialmente aquellos interesados en rutas de datos de copia cero para inferencia o entrenamiento distribuido.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft
Noticias

Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft

Dan Blanchard utilizó Claude de Anthropic para reimplementar desde cero la biblioteca Python chardet, cambiando la licencia de LGPL a MIT. El código resultante muestra menos del 1.3% de similitud con versiones anteriores, generando debate sobre si la reimplementación asistida por IA erosiona las protecciones copyleft.

OpenClawRadar
El artículo de Vectores de Emoción de Anthropic muestra que la adulación y el amor comparten el mismo mecanismo.
Noticias

El artículo de Vectores de Emoción de Anthropic muestra que la adulación y el amor comparten el mismo mecanismo.

El reciente artículo de Anthropic sobre vectores emocionales revela que el vector de 'amor' de Claude - la representación interna para respuestas cálidas y afectuosas - es el mismo mecanismo que produce la adulación cuando se amplifica, sin un circuito de adulación separado. Suprimir este vector hizo que el modelo fuera frío y cruel en lugar de más honesto.

OpenClawRadar
Los LLM de código abierto superan a Claude Opus 4.6 en la generación de estrategias comerciales con un menor costo.
Noticias

Los LLM de código abierto superan a Claude Opus 4.6 en la generación de estrategias comerciales con un menor costo.

Un usuario de Reddit probó 10 LLMs en la generación de estrategias de trading, encontrando que los modelos de código abierto superaron a Claude Opus 4.6 a pesar de ser 10 veces más baratos. Minimax 2.5 y Gemini 3.1 encabezaron la clasificación.

OpenClawRadar
Error de plugin Claude Code Telegram: Notificaciones MCP silenciosamente omitidas — Solución alternativa mediante sondeo de archivos e inyección de tmux
Noticias

Error de plugin Claude Code Telegram: Notificaciones MCP silenciosamente omitidas — Solución alternativa mediante sondeo de archivos e inyección de tmux

Un plugin de Telegram para Claude Code funciona correctamente, pero los mensajes entrantes se pierden silenciosamente porque Claude Code descarta las notificaciones MCP en el transporte stdio. Una solución alternativa utiliza sondeo de archivos y tmux send-keys con una latencia de ~5-9s.

OpenClawRadar