Сравнение производительности Qwen3.5-27B в 8-битном и 16-битном форматах

Пользователь Reddit на r/LocalLLaMA поделился результатами тестирования, сравнивающими производительность Qwen3.5-27B с различными настройками точности.
Настройка теста и результаты
Пользователь протестировал две конфигурации:
- Исходные веса bf16 с 16-битным KV-кэшем
- 8-битная квантизация fp8 от Qwen с 8-битным KV-кэшем
Тесты проводились с использованием vLLM на видеокарте RTX 6000 Pro. В качестве бенчмарка использовался Aider benchmark. Пользователь сообщил о "практически идентичных результатах" между двумя конфигурациями, объясняя небольшие различия случайными погрешностями, поскольку каждая конфигурация была запущена только один раз.
Вывод и рекомендация
На основе результатов тестирования пользователь пришёл к выводу, что "следует использовать fp8 как для весов, так и для кэша". Основное преимущество, которое он отметил, заключается в том, что этот подход "значительно увеличит доступный объём контекста" благодаря снижению использования памяти за счёт меньшей точности.
Такое тестирование квантизации актуально для разработчиков, запускающих большие языковые модели локально, где ограничения памяти часто ограничивают размер окна контекста. Использование форматов с меньшей точностью, таких как fp8, может обеспечить большие окна контекста без значительного снижения производительности, как показывают эти предварительные результаты.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Anthropic запускает Claude Code Channels для интеграции в мессенджеры
Anthropic запустила Claude Code Channels, позволяя разработчикам отправлять сообщения в сессии Claude Code из Telegram или Discord с полным доступом к инструментам, включая редактирование файлов, запуск тестов и операции с git. Функция требует платного тарифа Anthropic и поддерживает две платформы по сравнению с 20+ у OpenClaw.

Google: 75% нового кода создаётся ИИ, миграция кода с помощью агентов ускоряется в 6 раз
Google сообщает, что 75% нового кода создается с помощью ИИ, по сравнению с 25% в 2024 году. Сложная миграция кода выполнена в 6 раз быстрее с использованием агентов Gemini. В некоторых отделах у инженеров есть цели по использованию ИИ, привязанные к оценке эффективности.

По умолчанию VS Code включит анонс Co-Authored-by Copilot
PR #310226 от Microsoft VS Code изменяет значение по умолчанию для настройки git.addAICoAuthor с 'off' на 'all', автоматически добавляя заголовок Co-authored-by для AI-генерируемых вкладов. PR также обнаруживает несоответствие резервного варианта во время выполнения в repository.ts.

Искусственный интеллект пожирает мир (Весна 2026) – Комплексный анализ рынка
Подробный PDF-отчет о трендах AI-индустрии, размерах рынка и метриках внедрения на весну 2026 года, охватывающий ключевые технологии, игроков и прогнозы.