Разработчик тестирует Qwen3.5 27B в сравнении с более крупными моделями для локальных задач программирования.

Разработчик протестировал несколько больших языковых моделей для локальных задач программирования, сравнивая производительность и требования к оборудованию. Тестирование было сосредоточено на вариантах Qwen3.5 и моделях Nemotron, с сравнением с GPT-5.4 High.
Результаты тестирования и выводы
Разработчик протестировал следующие конкретные модели:
- unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
- unsloth/Qwen3.5-122B-A10B-GGUF
- unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL
- unsloth/Qwen3.5-27B-GGUF:UD-Q8_K_XL
- unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-IQ4_XS
- unsloth/gpt-oss-120b-GGUF:F16
Ключевые выводы из тестирования:
- Nemotron-3-Super-120B показал себя "очень, очень хорошо", наравне с GPT-5.4 High
- Qwen3.5-27B хорошо справился с задачами разработки
- GPT-OSS-120B и Qwen3.5-122B показали худшие результаты по сравнению с двумя другими моделями
- Nemotron-3-Super-120B последовательно отвечал на испанском (родном языке тестировщика), в то время как другие отвечали на английском
Метрики производительности
Разработчик предоставил конкретные показатели производительности:
- Nemotron-3-Super-120B: 80 токенов в секунду (tg/s), ~2000 обработки промпта (pp), контекст 100k на vast.ai с 4x RTX 3090
- Qwen3.5-27B Q6: 803 pp, 25 tg/s, контекст 256k на vast.ai
Требования к оборудованию
Разработчик отметил ограничения оборудования:
- Qwen3.5-122B потребовал бы новой материнской платы и 1-2 дополнительных видеокарт RTX 3090, что делает его слишком дорогим
- Qwen3.5-27B работает на существующем оборудовании с 2x RTX 3090 без дополнительных инвестиций
- Если бы у них было оборудование для Nemotron-3-Super-120B, они бы использовали его вместо этого
Детали реализации
Разработчик планирует использовать Qwen3.5-27B-GGUF:UD-Q6_K_XL для реальных задач разработки локально и предоставил команду llama.cpp, использованную для тестирования:
./llama.cpp/llama-server -hf unsloth/Qwen3.5-27B-GGUF:UD-Q6_K_XL --ctx-size 262144 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -ngl 999
Разработчик упомянул, что продолжит использовать CODEX для сложных задач, но может заменить API-подписки для ежедневных задач локальной настройкой.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Codex Chrome Extension добавляет фоновую автоматизацию браузера между вкладками
Новое расширение Codex для Chrome на macOS/Windows позволяет выполнять параллельные задачи в фоновых вкладках, не захватывая браузер — включая отладку, работу с дашбордами, исследования и обновление CRM.

Agent MCP Studio: Создавайте мультиагентные MCP-системы полностью в браузере через WASM
Agent MCP Studio позволяет проектировать, оркестрировать и экспортировать MCP-агентные системы из одного статического HTML-файла с использованием WebAssembly – без бэкенда, Docker и сервера.

Четыре навыка ClawHub для работы с данными поиска в реальном времени в AI-агентах
Четыре навыка ClawHub предоставляют структурированные возможности поиска для ИИ-агентов: Google (веб, новости, изображения, карты), Amazon (поиск товаров на 12 торговых площадках), Walmart (поиск товаров с фильтрами доставки) и YouTube (поиск видео с транскриптами). Установка через команды clawhub install с одним API-ключом.

Плагин с открытым исходным кодом Claude Code имитирует работу Управления главного специалиста по данным и искусственному интеллекту с 22 специализированными агентами.
Открытый плагин Claude Code под названием AI CDAIO Office использует 22 специализированных ИИ-агента для имитации полноценного офиса главного специалиста по данным и искусственному интеллекту, генерируя реальные файлы PPTX, DOCX и XLSX для стратегических документов, управленческих структур и материалов для совета директоров.