Qwen 3.6 27B DeepSWE: 2% за 70 ч, 44k токенов

Пользователь Reddit протестировал Qwen 3.6 27B на бенчмарке DeepSWE, получив результат 2% (1.79% с округлением) — 18-е место из 20, выше Haiku 4.5 и Minimax M2.7. Полный прогон занял 70 часов, среднее время на задачу — 32 минуты, средний вывод — 44k токенов на задачу. Удивительно, но этот показатель на уровне более крупной Qwen 3.6 Plus, несмотря на склонность 27B-модели к многословию.

Методология

Модель: Qwen 3.6 27B FP8 с BF16 KV кешем, включенным режимом рассуждения, окном контекста 262k, развернута через VLLM
Оборудование: 1x RTX6000 Pro Blackwell на RunPod
Инструмент агента: mini-swe на песочницах Modal
1 прогон на задачу (вместо официальных 4) для экономии времени; без указания диапазона оценок
Затраты рассчитаны исходя из почасовой ставки RunPod для выполненных задач
Оркестрация: Codex 5.5xhigh отслеживал и управлял всем прогоном

Ключевые наблюдения

Автор отмечает, что результат подозрительно близок к Qwen 3.6 Plus, что ставит вопросы об архитектурных различиях. Он утверждает, что локальные модели всё больше отстают от передовых закрытых решений: K2.6 — лучшая модель с открытым кодом, но большинство не может запустить её локально. Qwen 3.6 27B позиционируется как «SOTA для бедных» локальный вариант. Тренд показывает, что для достижения передовой производительности требуются большие масштабы, что часто ведёт к закрытию исходного кода, делая локальный запуск проигрышным с точки зрения конкурентоспособности.

📖 Источник: r/LocalLLaMA

Qwen 3.6 27B протестирован на DeepSWE: 2% балла, 70 часов, 44 тыс. средних выходных токенов

Методология

Ключевые наблюдения

👀 Смотрите также

Обновление PostmarketOS за февраль 2026 года: Универсальные ядра и политика в области ИИ

Cerebras выпускает модели Step-3.5-Flash-REAP с сокращением памяти на 40%.

Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.

Затраты на API OpenClaw достигли $275 за 5,5 часов, что в годовом исчислении превышает $200 тыс.