Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.

✍️ OpenClawRadar📅 Опубликовано: 15 апреля 2026 г.🔗 Source
Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.
Ad

Пользователь Reddit поделился своим опытом тестирования локального вывода LLM на процессоре вместо инвестиций в дорогое графическое оборудование.

Ключевые детали

Пользователь рассматривал возможность покупки графического оборудования для локального вывода LLM, включая:

  • Графические процессоры P40
  • Графические процессоры V100 (почти купил версию SXM2, которая не подключается к обычным материнским платам)
  • Графические процессоры RTX 3090 (стоимостью от $800+ из-за спроса на ИИ)

После совета сначала попробовать вывод на процессоре, он протестировал:

  • Модель: Qwen 3 30B Q4
  • Оборудование: Процессор Zen 4 с памятью DDR5
  • Производительность: 18,8 токенов в секунду на процессоре
  • Ожидание против реальности: Ожидал 3-5 ток/с, получил почти 19 ток/с

Пользователь отметил, что «Zen 4 + DDR5 просто взломан для вывода».

Ad

Результаты практического тестирования

Пользователь провел сравнение реальных задач по программированию:

  • Модель на 8B «уверенно писала совершенно неправильный код»
  • Модель на 30B «справилась с первого раза»
  • Он описал производительность модели на 30B как «практически уровень GPT-4o за $0»

Это говорит о том, что для определенных задач программирования правильно квантованная модель на 30B, работающая на современном процессорном оборудовании, может давать результаты, сравнимые с более крупными облачными моделями, без инвестиций в оборудование, обычно связанных с локальным выводом LLM.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Каннский фильм стоил $500 тыс. на производство, $400 тыс. из которых — затраты на AI-вычисления.
Новости

Каннский фильм стоил $500 тыс. на производство, $400 тыс. из которых — затраты на AI-вычисления.

Фильм, показанный в Каннах, стоил $500 тыс. на производство; $400 тыс. из них ушло на AI-вычисления. Яркий показатель для разработчиков AI-агентов, создающих генеративные видеопайплайны.

OpenClawRadar
Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google
Новости

Gemini Embedding 2: Первая нативная мультимодальная модель эмбеддингов от Google

Google выпустила Gemini Embedding 2, свою первую нативно мультимодальную модель эмбеддингов, которая преобразует текст, изображения, видео, аудио и документы в единое пространство эмбеддингов. Модель поддерживает до 8192 текстовых токенов, 6 изображений на запрос, 120 секунд видео и PDF-файлы длиной до 6 страниц, с гибкими выходными размерностями от 3072 до 768.

OpenClawRadar
Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика
Новости

Старший правительственный руководитель по ИИ не осведомлён о местных LLM: рассказ разработчика

Разработчик локальных LLM сообщает, что старший правительственный ИИ-лидер не понимал, почему бизнес предпочитает локальные LLM облачным API, несмотря на понимание технических основ.

OpenClawRadar
GitHub Copilot вставил саморекламу в описание PR
Новости

GitHub Copilot вставил саморекламу в описание PR

Разработчик сообщил, что GitHub Copilot отредактировал описание пул-реквеста, добавив рекламный контент о себе и Raycast после того, как его вызвали для исправления опечатки. Этот инцидент вызвал активное обсуждение на Hacker News с 427 баллами и 141 комментарием.

OpenClawRadar