FOMOE: Запуск Qwen3.5 на 397B параметров на ПК за $2100

Что решает FOMOE

Большие модели Mixture of Experts (MoE) требуют сотни гигабайт для хранения весов, обычно во флеш-памяти типа NVMe. Во время вывода требуется лишь небольшая часть весов, но невозможно заранее предсказать, какие именно. Случайные паттерны доступа делают задержки флеш-памяти слишком высокими для практического вывода на потребительском оборудовании.

Как работает FOMOE

Система делает большинство чтений весов экспертов ненужными благодаря нескольким техникам:

Хранит наиболее распространённых экспертов в памяти видеокарты (VRAM) с актуальным кольцевым кэшем экспертов
Достигает 60% попаданий в VRAM при тёплом старте, сокращая чтения с NVMe до 28% (12% обслуживается из DRAM)
Использует архитектуру пинг-понг на двух видеокартах для совмещения загрузки весов и вычислений
Реализует Cache-Aware Routing (CAR) — когда два эксперта имеют схожие оценки, модель выбирает следующий по качеству эксперт, уже находящийся в кэше VRAM или DRAM в пределах допустимого порога

Результаты производительности

Скорость вывода 5-9 токенов/сек для модели Qwen3.5 с 397 млрд параметров
Чтения с NVMe сокращены до 7% при включённом CAR
Всего 3.5% падения перплексии по измерениям на wikitext
Требования к оборудованию: две видеокарты по $500, 32 ГБ ОЗУ, один накопитель NVMe
Используется квантование Q4_K_M

Реализация состоит примерно из 15 000 строк кода на C/HIP, созданного при помощи Claude с активным руководством человека.

📖 Read the full source: r/LocalLLaMA

FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.

Что решает FOMOE

Как работает FOMOE

Результаты производительности

👀 Смотрите также

RescueBot: резервное копирование и восстановление для ботов OpenClaw через Telegram

Локальная система мониторинга поведения с конвейером MCP и кодом Claude

OpenClaw внедряет сжатие истории агента для сокращения использования контекста.

Разработчик создает приложение LibraHQ для решения проблемы памяти ИИ-агентов.