Hypura: Apple Silicon을 위한 스토리지 계층 인식 LLM 추론 스케줄러

✍️ OpenClawRadar📅 게시일: March 24, 2026🔗 Source
Hypura: Apple Silicon을 위한 스토리지 계층 인식 LLM 추론 스케줄러
Ad

Hypura의 기능

Hypura는 Apple Silicon용 저장 계층 인식 LLM 추론 스케줄러로, 접근 패턴, 대역폭 비용 및 하드웨어 성능을 기반으로 모델 텐서를 GPU, RAM, NVMe 계층에 배치합니다. 이를 통해 물리적 메모리를 초과하는 모델을 시스템 충돌 없이 실행할 수 있습니다.

주요 기능 및 작동 방식

Hypura는 GGUF 파일을 읽고, 하드웨어(GPU 작업 세트, RAM, NVMe 대역폭)를 프로파일링하며, 모든 텐서를 계층에 할당하는 배치 최적화를 수행합니다:

  • GPU (Metal) — 어텐션 레이어, 정규화, 임베딩
  • RAM — GPU 작업 세트에 맞지 않는 오버플로 레이어, mmap을 통해 접근
  • NVMe — 나머지 레이어는 직접 I/O(F_NOCACHE + pread)를 통해 주문형으로 로드되며, 순방향 패스 전에 미리 가져옴

Mixtral과 같은 MoE 모델의 경우, Hypura는 전문가 스트리밍을 구현합니다: 비전문가 텐서(~1 GB)만 GPU에 유지되고, 전문가 텐서는 요청 시 NVMe에서 풀 버퍼를 통해 스트리밍됩니다. 여기에는 워밍업 후 대부분의 I/O를 제거하는 99.5% 적중률의 뉴런 캐시, 선택된 전문가를 식별하는 라우터 가로채기, 그리고 다음에 활성화될 전문가를 예측하여 사전 가져오기를 위한 공동 활성화 추적이 포함됩니다.

Llama 70B와 같은 밀집 모델의 경우, 밀집 FFN 스트리밍을 사용합니다: 어텐션 및 정규화(~8 GB)는 GPU에 유지되고, FFN 텐서(~32 GB)는 확장된 사전 가져오기 선행을 통해 동적 크기 풀 버퍼를 통해 NVMe에서 스트리밍됩니다.

Ad

성능 벤치마크

모든 벤치마크는 M1 Max, 32 GB 통합 메모리, ~5.1 GB/s NVMe 순차 읽기에서 수행됨:

  • Qwen 2.5 14B Q4_K_M (8.4 GB): 전체 상주 모드, 21 tok/s (llama.cpp와 동일)
  • Mixtral 8x7B Q5_K_M (30.9 GB): 전문가 스트리밍 모드, 2.2 tok/s (llama.cpp OOM)
  • Llama 3.3 70B Q4_K_M (39.6 GB): 밀집-FFN-스트리밍 모드, 0.3 tok/s (llama.cpp OOM)

풀 버퍼 크기, 사전 가져오기 깊이 및 메모리 예산은 하드웨어 프로파일에서 자동으로 계산되므로 수동 조정이 필요하지 않습니다.

설치

Hypura는 Cargo를 사용하여 소스에서 빌드됩니다. Rust 1.75+ 및 CMake가 필요합니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

ClamBot: 보안을 위해 WASM 샌드박스에서 LLM 생성 코드를 실행하는 AI 에이전트
Tools

ClamBot: 보안을 위해 WASM 샌드박스에서 LLM 생성 코드를 실행하는 AI 에이전트

ClamBot은 LLM이 생성한 모든 코드를 WebAssembly 샌드박스에서 QuickJS와 Wasmtime을 사용해 실행하는 AI 에이전트 프레임워크로, exec()나 서브프로세스 호출이 필요하지 않습니다. 도구 호출을 위한 승인 게이트, 'clams'로 저장되는 지속적 스크립트 캐싱, 그리고 여러 LLM 제공업체를 지원합니다.

OpenClawRadar
클로드 힌드사이트: 클로드 코드 세션을 위한 관찰 가능성 도구
Tools

클로드 힌드사이트: 클로드 코드 세션을 위한 관찰 가능성 도구

클로드 힌드사이트는 클로드 코드를 위한 오픈소스 관찰 가능성 계층으로, 도구 호출, 토큰, 오류를 탐색 가능한 대시보드에 캡처합니다. 제작자는 이를 사용해 단일 11시간 세션 동안 733번의 도구 호출과 692.8M 캐시 토큰으로 오픈소스 프로젝트를 리팩터링했습니다.

OpenClawRadar
Claude Code의 컴퓨터 사용 기능을 활용하여 앱을 시각적으로 테스트하는 오픈소스 SwiftUI 테스팅 스킬
Tools

Claude Code의 컴퓨터 사용 기능을 활용하여 앱을 시각적으로 테스트하는 오픈소스 SwiftUI 테스팅 스킬

Claude Code용 오픈소스 스킬인 /ios-test는 Computer Use 기능을 활용하여 SwiftUI 앱을 시각적으로 테스트합니다. 에이전트는 .xcodeproj 파일을 찾아 시뮬레이터에서 앱을 빌드한 후, 실제 사용자처럼 모든 화면을 탐색하며 버튼을 탭하고 링크를 따라갑니다.

OpenClawRadar
AI 코딩 에이전트를 위한 보안 스캐닝 기술은 배포를 자동으로 점검합니다
Tools

AI 코딩 에이전트를 위한 보안 스캐닝 기술은 배포를 자동으로 점검합니다

한 개발자가 AI 코딩 에이전트가 자동으로 자신의 배포를 스캔하여 노출된 .env 파일, 열린 포트, 누락된 보안 헤더, 유출된 소스 코드를 확인할 수 있도록 하는 스킬 파일을 만들었습니다. 이 스캔은 매 배포 후 실행되며 약 30초가 소요됩니다.

OpenClawRadar