Qwen 3.6 27B протестирован на DeepSWE: 2% балла, 70 часов, 44 тыс. средних выходных токенов

Пользователь Reddit протестировал Qwen 3.6 27B на бенчмарке DeepSWE, получив результат 2% (1.79% с округлением) — 18-е место из 20, выше Haiku 4.5 и Minimax M2.7. Полный прогон занял 70 часов, среднее время на задачу — 32 минуты, средний вывод — 44k токенов на задачу. Удивительно, но этот показатель на уровне более крупной Qwen 3.6 Plus, несмотря на склонность 27B-модели к многословию.
Методология
- Модель: Qwen 3.6 27B FP8 с BF16 KV кешем, включенным режимом рассуждения, окном контекста 262k, развернута через VLLM
- Оборудование: 1x RTX6000 Pro Blackwell на RunPod
- Инструмент агента: mini-swe на песочницах Modal
- 1 прогон на задачу (вместо официальных 4) для экономии времени; без указания диапазона оценок
- Затраты рассчитаны исходя из почасовой ставки RunPod для выполненных задач
- Оркестрация: Codex 5.5xhigh отслеживал и управлял всем прогоном
Ключевые наблюдения
Автор отмечает, что результат подозрительно близок к Qwen 3.6 Plus, что ставит вопросы об архитектурных различиях. Он утверждает, что локальные модели всё больше отстают от передовых закрытых решений: K2.6 — лучшая модель с открытым кодом, но большинство не может запустить её локально. Qwen 3.6 27B позиционируется как «SOTA для бедных» локальный вариант. Тренд показывает, что для достижения передовой производительности требуются большие масштабы, что часто ведёт к закрытию исходного кода, делая локальный запуск проигрышным с точки зрения конкурентоспособности.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Обновление PostmarketOS за февраль 2026 года: Универсальные ядра и политика в области ИИ
PostmarketOS теперь предлагает универсальные пакеты ядра (linux-postmarketos-mainline, -stable, -lts) и обновила свою политику в отношении ИИ, явно запретив генеративный ИИ. В проекте также произошли изменения среди участников и улучшения аппаратного CI.

Cerebras выпускает модели Step-3.5-Flash-REAP с сокращением памяти на 40%.
Cerebras выпустила модели Step-3.5-Flash-REAP, использующие REAP (Router-weighted Expert Activation Pruning) для сжатия моделей с 196B параметров до 121B при сохранении почти идентичной производительности. Модели работают с обычным vLLM и оптимизированы для сред с ограниченными ресурсами.

Claude-Code версия 2.1.84 добавляет инструмент PowerShell, переменные окружения и несколько исправлений.
Claude-Code v2.1.84 представляет инструмент PowerShell для Windows в качестве опциональной предварительной версии, добавляет переменные окружения для конфигурации модели и таймаутов потоковой передачи, а также включает множество исправлений ошибок и улучшений производительности.

Затраты на API OpenClaw достигли $275 за 5,5 часов, что в годовом исчислении превышает $200 тыс.
Разработчик, тестировавший OpenClaw с помощью API GPT-5.4 от OpenAI, потратил $275 с 11:00 до 16:30, что при таком темпе использования составляет более $200 000 в год.