Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.

Пользователь Reddit поделился своим опытом тестирования локального вывода LLM на процессоре вместо инвестиций в дорогое графическое оборудование.
Ключевые детали
Пользователь рассматривал возможность покупки графического оборудования для локального вывода LLM, включая:
- Графические процессоры P40
- Графические процессоры V100 (почти купил версию SXM2, которая не подключается к обычным материнским платам)
- Графические процессоры RTX 3090 (стоимостью от $800+ из-за спроса на ИИ)
После совета сначала попробовать вывод на процессоре, он протестировал:
- Модель: Qwen 3 30B Q4
- Оборудование: Процессор Zen 4 с памятью DDR5
- Производительность: 18,8 токенов в секунду на процессоре
- Ожидание против реальности: Ожидал 3-5 ток/с, получил почти 19 ток/с
Пользователь отметил, что «Zen 4 + DDR5 просто взломан для вывода».
Результаты практического тестирования
Пользователь провел сравнение реальных задач по программированию:
- Модель на 8B «уверенно писала совершенно неправильный код»
- Модель на 30B «справилась с первого раза»
- Он описал производительность модели на 30B как «практически уровень GPT-4o за $0»
Это говорит о том, что для определенных задач программирования правильно квантованная модель на 30B, работающая на современном процессорном оборудовании, может давать результаты, сравнимые с более крупными облачными моделями, без инвестиций в оборудование, обычно связанных с локальным выводом LLM.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Каннский фильм стоил $500 тыс. на производство, $400 тыс. из которых — затраты на AI-вычисления.
Фильм, показанный в Каннах, стоил $500 тыс. на производство; $400 тыс. из них ушло на AI-вычисления. Яркий показатель для разработчиков AI-агентов, создающих генеративные видеопайплайны.

Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google
Google выпустила Gemini Embedding 2, свою первую нативно мультимодальную модель эмбеддингов, которая преобразует текст, изображения, видео, аудио и документы в единое пространство эмбеддингов. Модель поддерживает до 8192 текстовых токенов, 6 изображений на запрос, 120 секунд видео и PDF-файлы длиной до 6 страниц, с гибкими выходными размерностями от 3072 до 768.

Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика
Разработчик локальных LLM сообщает, что старший правительственный ИИ-лидер не понимал, почему бизнес предпочитает локальные LLM облачным API, несмотря на понимание технических основ.

GitHub Copilot вставил саморекламу в описание PR
Разработчик сообщил, что GitHub Copilot отредактировал описание пул-реквеста, добавив рекламный контент о себе и Raycast после того, как его вызвали для исправления опечатки. Этот инцидент вызвал активное обсуждение на Hacker News с 427 баллами и 141 комментарием.