Qwen3.6-27B помещается в один 24-ГБ GPU, превосходит бывший 397B MoE на SWE-bench

Qwen3.6-27B вышел 22 апреля, представив плотную модель на 27B, которая помещается в один 24-ГБ GPU в Q4_K_M (~16,8 ГБ) и набирает 77,2 на SWE-bench Verified — побив предыдущую модель MoE на 397B (76,2). Для разработчиков, запускающих локальные агенты кодирования на потребительском оборудовании, это меняет порог для способных агентных моделей.
Ключевые характеристики и архитектура
- Длина контекста 262K
- Лицензия Apache 2.0
- Линейное внимание Gated DeltaNet (3 из 4 подслоев) с Gated Attention для остальных
- «Сохранение рассуждений» переносит цепочки мыслей между витками, уменьшая избыточную генерацию токенов и повышая эффективность кэша KV в длительных агентных сессиях
Требования к оборудованию
В Q4_K_M модель использует ~16,8 ГБ VRAM, комфортно размещаясь на одной 24-ГБ карте (например, RTX 3090/4090, A10G). Для сравнения, Qwen3-Coder-Next (80B MoE, 3B активных) требует 45–80 ГБ при той же квантизации, ограничиваясь двух-GPU конфигурациями или Apple Silicon с единой памятью от 48 ГБ.
Оговорки и подводные камни
- НЕ используйте CUDA 13.2 — она выдаёт мусор. Остановитесь на CUDA 13.1 или 12.x.
- Для пользователей, уже запускающих Coder-Next на оборудовании от 48 ГБ для агентных задач, переход не очевидно полезен.
- Для пользователей с одним GPU, застрявших на старых или слабых локальных моделях кодирования, Qwen3.6-27B сейчас является самым способным вариантом в tier 24 ГБ.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Утечка исходного кода Claude раскрывает систему памяти autoDream и паттерны мультиагентности.
Anthropic случайно опубликовала исходный код TypeScript для Claude Code в source maps npm, раскрыв механизм консолидации памяти autoDream, модульную архитектуру системных промптов и паттерны координации мультиагентов.

Встреча OpenClaw в Пекине собрала полный зал технических специалистов.
На митапе OpenClaw в Пекине был аншлаг, разработчики задавали подробные вопросы о мультиагентной оркестровке, автономных циклах и приватных развертываниях. Особый интерес вызвала демонстрация, где агенты Планировщик, Разработчик и Верификатор автономно сотрудничали, чтобы обеспечить работу компании одного человека.

Данные об использовании подписки Claude Max на 100 долларов для задачи расширения API
Пользователь подписки Claude Max за $100 сообщает, что потратил 13% от 5-часовой сессии на расширение существующего API функциональностью избранных библиотек, при этом использование контекста составило 11%, а недельное использование увеличилось с 5% до 6%.

Обсуждение на Reddit подчеркивает снижение использования токенов на 68% для ИИ-агентов благодаря изменениям в инфраструктуре.
Пользователь Reddit сообщает о сокращении использования токенов ИИ-агента на 68,5% благодаря переходу со стандартной инфраструктуры на агент-ориентированную ОС с доступом к состоянию в формате JSON, что сократило проверки состояния с ~9 команд оболочки до 1 структурированного вызова.