FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.

Что решает FOMOE
Большие модели Mixture of Experts (MoE) требуют сотни гигабайт для хранения весов, обычно во флеш-памяти типа NVMe. Во время вывода требуется лишь небольшая часть весов, но невозможно заранее предсказать, какие именно. Случайные паттерны доступа делают задержки флеш-памяти слишком высокими для практического вывода на потребительском оборудовании.
Как работает FOMOE
Система делает большинство чтений весов экспертов ненужными благодаря нескольким техникам:
- Хранит наиболее распространённых экспертов в памяти видеокарты (VRAM) с актуальным кольцевым кэшем экспертов
- Достигает 60% попаданий в VRAM при тёплом старте, сокращая чтения с NVMe до 28% (12% обслуживается из DRAM)
- Использует архитектуру пинг-понг на двух видеокартах для совмещения загрузки весов и вычислений
- Реализует Cache-Aware Routing (CAR) — когда два эксперта имеют схожие оценки, модель выбирает следующий по качеству эксперт, уже находящийся в кэше VRAM или DRAM в пределах допустимого порога
Результаты производительности
- Скорость вывода 5-9 токенов/сек для модели Qwen3.5 с 397 млрд параметров
- Чтения с NVMe сокращены до 7% при включённом CAR
- Всего 3.5% падения перплексии по измерениям на wikitext
- Требования к оборудованию: две видеокарты по $500, 32 ГБ ОЗУ, один накопитель NVMe
- Используется квантование Q4_K_M
Реализация состоит примерно из 15 000 строк кода на C/HIP, созданного при помощи Claude с активным руководством человека.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Бесплатный MCP позволяет Клоду автоматически анализировать данные Google Search Console
Бесплатный MCP-сервер (Model Context Protocol) позволяет Клоду напрямую запрашивать данные Google Search Console для любого сайта, к которому у вас есть доступ. Спрашивайте о запросах, страницах, кликах, показах, CTR и позициях без ручного экспорта CSV.

Коллекция пользовательских стилей вывода для Claude Code
Разработчик создал 13 пользовательских стилей вывода для Claude Code, которые изменяют поведение ИИ через системные промпты. Стили включают Roast для жёсткой критики кода, Socratic для наводящих вопросов, Breaker для враждебного тестирования, Ship It для прагматичных решений, Paranoid для фокуса на безопасности и TDD для разработки через тестирование.

Мой агент создал себе систему интероцепции — теперь у него есть желания

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw
Первый специализированный бенчмарк OpenClaw, PinchBench, ранжирует 32 модели ИИ по проценту успешных решений, стоимости и скорости, где Google Gemini-3-Flash-Preview лидирует с 95,1% успеха за $0,72.