Заголовок статьи: libibverbs от Apple скрывает символы GPUDirect RDMA; Zero-Copy Metal Buffer RDMA работает на macOS

Продолжение расследования TinyGPU показывает, что реализация RDMA от Apple поддерживает общий доступ к памяти без копирования с буферами Metal GPU, а скрытые символы указывают на возможную поддержку GPUDirect RDMA — недокументированную и ранее неизвестную.
Ключевые находки
Разработчик протестировал ibv_reg_mr() с различными типами памяти на 4-узловом кластере Mac (3x M3 Ultra + M5 Max MacBook Pro, ~1,5 ТБ унифицированной памяти, Thunderbolt 5). Результаты:
malloc()— ОШИБКА (неожиданно; работает на Linux)posix_memalign()— ОШИБКА (неожиданно)mmap(MAP_ANON)— УСПЕХ (ожидаемо)IOSurfaceGetBaseAddress()— УСПЕХ (нет документации)MTLBuffer.contents(Metal shared) — УСПЕХ (нет документации)
RDMA от Apple проверяет тип VM-отображения, а не физическое резервирование. Выделения из кучи не проходят; память, отображённая через VM (mmap, IOSurface, буферы Metal), проходит — ключевое отличие от Linux.
Доказательство нулевого копирования
Буфер размером 64 МБ, выделенный через mmap, был зарегистрирован трижды: как область памяти RDMA, буфер Metal GPU и IOSurface. Все регистрации прошли успешно с одинаковым lkey=0x101, что подтверждает общий доступ к памяти между GPU и сетью без копирования.
Скрытые символы GPUDirect RDMA
Анализ libibverbs.dylib от Apple с помощью nm -a выявил недокументированные символы, включая ibv_reg_dmabuf_mr, который на Linux включает GPUDirect RDMA. Это говорит о том, что Apple уже реализовала поддержку на уровне ядра, но API не опубликован.
Статус eGPU Blackwell
RTX PRO 5000 Blackwell 72 ГБ в Razer Core X V2 обнаружен (линия PCIe поднята, x4 при 16 GT/s, 80 Гбит/с TB5), расширение DriverKit от TinyGPU загружается. Однако прошивка GSP от NVIDIA выдаёт ошибку RuntimeError: RPC call 4097 failed with result 101. Расшифровка NOCAT показывает FBFLCN UNRECOGNIZED_CLIENT — фабрика памяти GPU не распознаёт пира PCIe через TB5. Это известная проблема (tinygrad#15843); GPU AMD работают нормально. Разработчик просит о сотрудничестве с командой tinygrad для исправления инициализации прошивки GSP через TB5.
Для кого это
Для разработчиков, работающих с GPU-вычислениями на macOS, RDMA или инфраструктурой eGPU, особенно тех, кто интересуется путями с нулевым копированием для распределённого вывода или обучения.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Подписчики ЕС сообщают о нераскрытых ограничениях использования Claude Pro – возможное нарушение законодательства о защите прав потребителей
В одном из постов на Reddit описывается, как маркетинговые обещания Claude Pro «без ограничений» приводят к дополнительным расходам для пользователей из ЕС и скрытым лимитам сессий, что может нарушать директивы ЕС о защите прав потребителей.

Claude Opus 4.7 добавляет поддержку изображений высокого разрешения, бюджеты задач и убирает расширенное мышление.
Claude Opus 4.7 представляет поддержку изображений высокого разрешения до 2576px/3.75MP, новую функцию бюджета задач для контроля использования токенов в агентских циклах, а также удаляет расширенные бюджеты мышления в пользу адаптивного мышления.

Выпущена модель MiniMax M2.7 с улучшенной производительностью в программировании.
MiniMax выпустила модель искусственного интеллекта M2.7, которая набирает 56% в тестах SWE-Pro по программированию и обладает возможностями самооптимизации. Модель сохраняет цену в размере $0,30 за миллион входных токенов.

Uber израсходовал годовой бюджет Claude Code за 4 месяца — вот что это значит
Сообщается, что Uber исчерпал годовой бюджет на Claude Code к концу апреля. В статье разбирается, почему структура использования сломала подписную модель, и какие уроки разработчики могут извлечь о постановке границ при работе с ИИ-кодингом.