FOMOE, 2,100달러 데스크톱 하드웨어에서 397B Qwen3.5 모델 추론 가능

✍️ OpenClawRadar📅 게시일: March 29, 2026🔗 Source
FOMOE, 2,100달러 데스크톱 하드웨어에서 397B Qwen3.5 모델 추론 가능
Ad

FOMOE가 해결하는 문제

대규모 Mixture of Experts(MoE) 모델은 일반적으로 NVMe와 같은 플래시 메모리에 수백 GB의 가중치 저장이 필요합니다. 추론 중에는 가중치의 일부만 필요하지만, 어떤 가중치가 필요한지 미리 예측할 수 없습니다. 무작위 접근 패턴으로 인해 플래시 지연 시간이 너무 높아 소비자용 하드웨어에서 실용적인 추론이 어렵습니다.

FOMOE 작동 방식

이 시스템은 여러 기술을 통해 대부분의 전문가 가중치 읽기를 불필요하게 만듭니다:

  • 최신 롤링 전문가 캐시로 가장 일반적인 전문가를 GPU 메모리(VRAM)에 저장
  • 웜 스타트로 60% VRAM 적중률 달성, NVMe 읽기를 28%로 감소(12%는 DRAM에서 제공)
  • 가중치 로딩과 계산을 중첩시키기 위한 듀얼 GPU 핑퐁 아키텍처 사용
  • 캐시 인식 라우팅(CAR) 구현 - 두 전문가의 점수가 비슷할 때, 모델은 허용 가능한 임계값 내에서 VRAM 또는 DRAM 캐시에 이미 있는 다음으로 점수가 높은 전문가를 선택

성능 결과

  • Qwen3.5의 397B 파라미터 모델에 대해 초당 5-9 토큰 추론 속도
  • CAR 활성화 시 NVMe 읽기가 7%로 감소
  • wikitext에서 측정된 난잡도는 3.5%만 감소
  • 하드웨어 요구사항: 두 개의 500달러 GPU, 32GB RAM, 하나의 NVMe 드라이브
  • Q4_K_M 양자화 사용

구현은 약 15,000줄의 Claude 주도 C/HIP 코드로 구성되어 있으며, 많은 인간의 지도가 포함되었습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

LLM을 위한 관계형 메모리: 사용자 관계를 모델링하는 3계층 시스템
Tools

LLM을 위한 관계형 메모리: 사용자 관계를 모델링하는 3계층 시스템

오픈소스 파이썬 도구로, 평면적인 사실 저장 대신 3계층 서사 구조를 사용하여 7가지 심리적 차원에서 사용자-AI 관계를 모델링함으로써 LLM에 관계적 메모리를 추가합니다.

OpenClawRadar
불소리 벤치마크 테스트: LLM의 무의미한 프롬프트에 대한 저항력
Tools

불소리 벤치마크 테스트: LLM의 무의미한 프롬프트에 대한 저항력

Bullshit 벤치마크는 AI 모델이 명백한 허튼소리 프롬프트를 식별하고 반박하는지, 자신만만하게 잘못된 답변을 생성하는지 평가합니다. 결과에 따르면 Claude 모델이 허튼소리 질문을 감지하는 데 Gemini 모델보다 훨씬 더 나은 성능을 보입니다.

OpenClawRadar
Quell 프록시 수정으로 Windows에서 Claude 코드 스크롤 점프 문제 해결
Tools

Quell 프록시 수정으로 Windows에서 Claude 코드 스크롤 점프 문제 해결

Quell은 터미널과 Claude Code 사이에 위치하는 Rust 프록시로, 긴 응답 중에 스크롤 위치를 재설정하는 화면 지우기 시퀀스를 제거합니다. 또한 Shift+Enter로 줄바꿈, 보안 필터링, 완전한 유니코드 지원을 추가합니다.

OpenClawRadar
Flue: 자율 코딩 에이전트 구축을 위한 TypeScript 프레임워크
Tools

Flue: 자율 코딩 에이전트 구축을 위한 TypeScript 프레임워크

Flue는 자율 에이전트 구축을 위한 프로그래머블 하네스를 제공하는 TypeScript 프레임워크로, 스킬, 세션, 샌드박스 셸 실행 및 내장 가상 샌드박스를 갖추고 있습니다. Dosu, Greptile, CodeRabbit, Devin, Claude Code 같은 도구를 사용자 정의 에이전트 로직으로 대체할 수 있습니다.

OpenClawRadar