Hypura로 Apple Silicon에서 LLM 추론 가속: 32GB Mac Mini로 Mixtral 8x7B 실행

Hypura의 기능

Hypura는 Apple Silicon용 저장 계층 인식 LLM 추론 스케줄러로, 접근 패턴, 대역폭 비용 및 하드웨어 성능을 기반으로 모델 텐서를 GPU, RAM, NVMe 계층에 배치합니다. 이를 통해 물리적 메모리를 초과하는 모델을 시스템 충돌 없이 실행할 수 있습니다.

주요 기능 및 작동 방식

Hypura는 GGUF 파일을 읽고, 하드웨어(GPU 작업 세트, RAM, NVMe 대역폭)를 프로파일링하며, 모든 텐서를 계층에 할당하는 배치 최적화를 수행합니다:

GPU (Metal) — 어텐션 레이어, 정규화, 임베딩
RAM — GPU 작업 세트에 맞지 않는 오버플로 레이어, mmap을 통해 접근
NVMe — 나머지 레이어는 직접 I/O(F_NOCACHE + pread)를 통해 주문형으로 로드되며, 순방향 패스 전에 미리 가져옴

Mixtral과 같은 MoE 모델의 경우, Hypura는 전문가 스트리밍을 구현합니다: 비전문가 텐서(~1 GB)만 GPU에 유지되고, 전문가 텐서는 요청 시 NVMe에서 풀 버퍼를 통해 스트리밍됩니다. 여기에는 워밍업 후 대부분의 I/O를 제거하는 99.5% 적중률의 뉴런 캐시, 선택된 전문가를 식별하는 라우터 가로채기, 그리고 다음에 활성화될 전문가를 예측하여 사전 가져오기를 위한 공동 활성화 추적이 포함됩니다.

Llama 70B와 같은 밀집 모델의 경우, 밀집 FFN 스트리밍을 사용합니다: 어텐션 및 정규화(~8 GB)는 GPU에 유지되고, FFN 텐서(~32 GB)는 확장된 사전 가져오기 선행을 통해 동적 크기 풀 버퍼를 통해 NVMe에서 스트리밍됩니다.

성능 벤치마크

모든 벤치마크는 M1 Max, 32 GB 통합 메모리, ~5.1 GB/s NVMe 순차 읽기에서 수행됨:

Qwen 2.5 14B Q4_K_M (8.4 GB): 전체 상주 모드, 21 tok/s (llama.cpp와 동일)
Mixtral 8x7B Q5_K_M (30.9 GB): 전문가 스트리밍 모드, 2.2 tok/s (llama.cpp OOM)
Llama 3.3 70B Q4_K_M (39.6 GB): 밀집-FFN-스트리밍 모드, 0.3 tok/s (llama.cpp OOM)

풀 버퍼 크기, 사전 가져오기 깊이 및 메모리 예산은 하드웨어 프로파일에서 자동으로 계산되므로 수동 조정이 필요하지 않습니다.

설치

Hypura는 Cargo를 사용하여 소스에서 빌드됩니다. Rust 1.75+ 및 CMake가 필요합니다.

📖 전체 소스 읽기: HN AI Agents

Hypura: Apple Silicon을 위한 스토리지 계층 인식 LLM 추론 스케줄러

Hypura의 기능

주요 기능 및 작동 방식

성능 벤치마크

설치

👀 See Also

멀티-오퍼레이터 클로드 코드: 멀티-에이전트 세션을 위한 허브 기반 아키텍처

AgenticStore MCP: Claude Desktop용 Python 도구 모음, 27개의 로컬 도구 포함

Ralph 용어: 서로 다른 에이전트의 교차 검토 세션을 포함한 클로드 코드용 랄프 스타일 루프

클로드용 법률 MCP 서버, 400만 건 이상의 미국 법원 판례 제공