CPU-инференс Qwen 3 30B Q4: 18,8 ток/с на Zen 4

Пользователь Reddit поделился своим опытом тестирования локального вывода LLM на процессоре вместо инвестиций в дорогое графическое оборудование.

Ключевые детали

Пользователь рассматривал возможность покупки графического оборудования для локального вывода LLM, включая:

Графические процессоры P40
Графические процессоры V100 (почти купил версию SXM2, которая не подключается к обычным материнским платам)
Графические процессоры RTX 3090 (стоимостью от $800+ из-за спроса на ИИ)

После совета сначала попробовать вывод на процессоре, он протестировал:

Модель: Qwen 3 30B Q4
Оборудование: Процессор Zen 4 с памятью DDR5
Производительность: 18,8 токенов в секунду на процессоре
Ожидание против реальности: Ожидал 3-5 ток/с, получил почти 19 ток/с

Пользователь отметил, что «Zen 4 + DDR5 просто взломан для вывода».

Результаты практического тестирования

Пользователь провел сравнение реальных задач по программированию:

Модель на 8B «уверенно писала совершенно неправильный код»
Модель на 30B «справилась с первого раза»
Он описал производительность модели на 30B как «практически уровень GPT-4o за $0»

Это говорит о том, что для определенных задач программирования правильно квантованная модель на 30B, работающая на современном процессорном оборудовании, может давать результаты, сравнимые с более крупными облачными моделями, без инвестиций в оборудование, обычно связанных с локальным выводом LLM.

📖 Прочитать полный источник: r/LocalLLaMA

Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.

Ключевые детали

Результаты практического тестирования

👀 Смотрите также

Anthropic ограничивает использование подписки на Claude в сторонних инструментах, таких как OpenClaw.

Огайо приостанавливает налоговые льготы для дата-центров: рост затрат на ИИ давит на технологические компании

Qwen3 27B превосходит Gemma 4 26B в реальном вызове инструментов для локального AI-видеопаплайна

Claude Code v2.1.81 добавляет флаг bare для скриптов, исправляет проблемы с аутентификацией и голосовым режимом.