FOMOE, 2,100달러 데스크톱 하드웨어에서 397B Qwen3.5 모델 추론 가능

✍️ OpenClawRadar📅 게시일: March 29, 2026🔗 Source

FOMOE, 2,100달러 데스크톱 하드웨어에서 397B Qwen3.5 모델 추론 가능

Ad

FOMOE가 해결하는 문제

대규모 Mixture of Experts(MoE) 모델은 일반적으로 NVMe와 같은 플래시 메모리에 수백 GB의 가중치 저장이 필요합니다. 추론 중에는 가중치의 일부만 필요하지만, 어떤 가중치가 필요한지 미리 예측할 수 없습니다. 무작위 접근 패턴으로 인해 플래시 지연 시간이 너무 높아 소비자용 하드웨어에서 실용적인 추론이 어렵습니다.

FOMOE 작동 방식

이 시스템은 여러 기술을 통해 대부분의 전문가 가중치 읽기를 불필요하게 만듭니다:

최신 롤링 전문가 캐시로 가장 일반적인 전문가를 GPU 메모리(VRAM)에 저장
웜 스타트로 60% VRAM 적중률 달성, NVMe 읽기를 28%로 감소(12%는 DRAM에서 제공)
가중치 로딩과 계산을 중첩시키기 위한 듀얼 GPU 핑퐁 아키텍처 사용
캐시 인식 라우팅(CAR) 구현 - 두 전문가의 점수가 비슷할 때, 모델은 허용 가능한 임계값 내에서 VRAM 또는 DRAM 캐시에 이미 있는 다음으로 점수가 높은 전문가를 선택

성능 결과

Qwen3.5의 397B 파라미터 모델에 대해 초당 5-9 토큰 추론 속도
CAR 활성화 시 NVMe 읽기가 7%로 감소
wikitext에서 측정된 난잡도는 3.5%만 감소
하드웨어 요구사항: 두 개의 500달러 GPU, 32GB RAM, 하나의 NVMe 드라이브
Q4_K_M 양자화 사용

구현은 약 15,000줄의 Claude 주도 C/HIP 코드로 구성되어 있으며, 많은 인간의 지도가 포함되었습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Jentic Mini: 오픈클로를 위한 자체 호스팅 API 및 액션 실행 레이어

Jentic Mini: 오픈클로를 위한 자체 호스팅 API 및 액션 실행 레이어

Jentic Mini는 AI 에이전트와 외부 API 사이에 위치하는 자체 호스팅 API 및 액션 실행 레이어로, 자격 증명을 암호화된 금고에 저장하고 개별적으로 취소 가능한 키로 범위가 지정된 툴킷을 제공합니다. 자격 증명이 추가되면 10,000개 이상의 OpenAPI 사양과 Arazzo 워크플로우 소스를 자동으로 가져옵니다.

Apr 15, 2026, 08:17 AM UTC

Prefex: 프롬프트 캐싱과 세션 메모리 자동화를 위한 Claude 코드용 로컬 프록시

Prefex: 프롬프트 캐싱과 세션 메모리 자동화를 위한 Claude 코드용 로컬 프록시

Prefex는 Claude Code와 Anthropic API 사이에 위치하는 로컬 프록시로, Anthropic의 베타 프롬프트 캐싱 기능에 필요한 헤더를 자동으로 주입합니다. 또한 전체 대화 기록을 재전송하지 않도록 세션 메모리를 구현하고 비용 최적화를 위한 모델 라우터를 포함합니다.

Apr 15, 2026, 08:45 AM UTC

로컬 작업 자동화를 위해 llama.cpp로 미세 조정된 Qwen2-0.5B

로컬 작업 자동화를 위해 llama.cpp로 미세 조정된 Qwen2-0.5B

한 개발자가 LoRA를 사용해 약 1000개의 사용자 정의 예제로 Qwen2-0.5B를 태스크 자동화에 맞춰 미세 조정하여, llama.cpp를 통해 CPU에서 로컬로 실행되는 300MB GGUF 모델을 만들었습니다. 이 모델은 자연어 태스크를 받아들이고, 태스크 유형을 감지하며, CLI 명령어와 핫키로 실행 계획을 생성합니다.

Mar 22, 2026, 09:45 AM UTC

MCP + 스킬 프레임워크: 효율적인 데이터 과학 워크플로우를 위한 AI 에이전트 안내

MCP + 스킬 프레임워크: 효율적인 데이터 과학 워크플로우를 위한 AI 에이전트 안내

MCP 서버 + 스킬 프레임워크를 사용하여 Claude/GPT 에이전트가 플랫폼을 인식하고 효율적인 데이터 과학 워크플로를 수행하도록 제한하는 실용적인 접근 방식입니다. 클라이언트 중심 코드와 불필요한 데이터 이동을 피합니다.

Apr 29, 2026, 10:16 PM UTC