FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.

✍️ OpenClawRadar📅 Опубликовано: 29 марта 2026 г.🔗 Source
FOMOE позволяет запускать вывод модели Qwen3.5 на 397 миллиардов параметров на настольном оборудовании стоимостью $2100.
Ad

Что решает FOMOE

Большие модели Mixture of Experts (MoE) требуют сотни гигабайт для хранения весов, обычно во флеш-памяти типа NVMe. Во время вывода требуется лишь небольшая часть весов, но невозможно заранее предсказать, какие именно. Случайные паттерны доступа делают задержки флеш-памяти слишком высокими для практического вывода на потребительском оборудовании.

Как работает FOMOE

Система делает большинство чтений весов экспертов ненужными благодаря нескольким техникам:

  • Хранит наиболее распространённых экспертов в памяти видеокарты (VRAM) с актуальным кольцевым кэшем экспертов
  • Достигает 60% попаданий в VRAM при тёплом старте, сокращая чтения с NVMe до 28% (12% обслуживается из DRAM)
  • Использует архитектуру пинг-понг на двух видеокартах для совмещения загрузки весов и вычислений
  • Реализует Cache-Aware Routing (CAR) — когда два эксперта имеют схожие оценки, модель выбирает следующий по качеству эксперт, уже находящийся в кэше VRAM или DRAM в пределах допустимого порога
Ad

Результаты производительности

  • Скорость вывода 5-9 токенов/сек для модели Qwen3.5 с 397 млрд параметров
  • Чтения с NVMe сокращены до 7% при включённом CAR
  • Всего 3.5% падения перплексии по измерениям на wikitext
  • Требования к оборудованию: две видеокарты по $500, 32 ГБ ОЗУ, один накопитель NVMe
  • Используется квантование Q4_K_M

Реализация состоит примерно из 15 000 строк кода на C/HIP, созданного при помощи Claude с активным руководством человека.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Бесплатный MCP позволяет Клоду автоматически анализировать данные Google Search Console
Инструменты

Бесплатный MCP позволяет Клоду автоматически анализировать данные Google Search Console

Бесплатный MCP-сервер (Model Context Protocol) позволяет Клоду напрямую запрашивать данные Google Search Console для любого сайта, к которому у вас есть доступ. Спрашивайте о запросах, страницах, кликах, показах, CTR и позициях без ручного экспорта CSV.

OpenClawRadar
Коллекция пользовательских стилей вывода для Claude Code
Инструменты

Коллекция пользовательских стилей вывода для Claude Code

Разработчик создал 13 пользовательских стилей вывода для Claude Code, которые изменяют поведение ИИ через системные промпты. Стили включают Roast для жёсткой критики кода, Socratic для наводящих вопросов, Breaker для враждебного тестирования, Ship It для прагматичных решений, Paranoid для фокуса на безопасности и TDD для разработки через тестирование.

OpenClawRadar
Мой агент создал себе систему интероцепции — теперь у него есть желания
Инструменты

Мой агент создал себе систему интероцепции — теперь у него есть желания

u/zerofucksleft
Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw
Инструменты

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

Первый специализированный бенчмарк OpenClaw, PinchBench, ранжирует 32 модели ИИ по проценту успешных решений, стоимости и скорости, где Google Gemini-3-Flash-Preview лидирует с 95,1% успеха за $0,72.

OpenClawRadar