Локальные vs облачные модели: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark в сложной генерации кода

Пользователь Reddit сравнил локально запущенную модель Qwen-3.6-27B (GGUF q4_k_m) с API-эквивалентами: Qwen-3.6-27B через OpenRouter, Gemma-4-31B через OpenRouter, Claude Haiku 4.5 и GPT-Codex-Spark. Тест заключался в реализации цикла автоисследования из проектного документа — намеренно сложная задача для оценки чистоты отказа, а не успеха.
Аппаратная конфигурация
- CPU: Ryzen 7 7800X3D
- ОЗУ: 64 ГБ DDR5-6400
- GPU: RTX 5080 (16 ГБ VRAM)
- Локальная модель: Qwen-3.6-27B q4_k_m (GGUF) — помещается в 16 ГБ VRAM благодаря квантизации
Результаты
- Gemma-4-31B (API): Полный провал. Написал скелет с заглушками модулей, без тестов и конфигурационных файлов (
__init__.py,requirements.txt,pyproject.toml). Стоимость: $0.112, потреблено 803k токенов контекста, сгенерировано 21k. - Codex-Spark (API): Создал красивую структуру папок и код, но импорты были галлюцинациями. Без модульных тестов. Использовано 1% лимита Spark ($100/мес).
- Claude Haiku 4.5 (API): Детальная реализация, но неверная. (Дальнейшие детали обрезаны в источнике.)
- Qwen-3.6-27B (локальная q4_k_m): Не оценена явно, но пользователь отмечает, что квантизированный вывод снижает качество по сравнению с полноценной API-версией.
Контекст
Пользователь утверждает, что типичные тесты локальных моделей используют тривиальные задачи (например, Snake в HTML), где и локальные, и передовые модели преуспевают, что завышает возможности локальных моделей. В этом тесте использовался реальный рабочий проект с проектным документом; только Codex-Spark выдал полностью написанный (но сломанный) код. Вывод: локальные модели пока не готовы к сложной генерации кода без существенных доработок.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также
The Atlantic сообщает о росте насилия против ИИ и политической реакции
Берни Сандерс и Стив Бэннон оба осуждают ИИ как угрозу для рабочих. Нападение с коктейлем Молотова на дом Сэма Альтмана и стрельба по дому члена городского совета Индианаполиса свидетельствуют о росте насилия против дата-центров.

Claude Code v2.1.73: Переопределения моделей, исправления стабильности и улучшения производительности
Claude Code v2.1.73 добавляет modelOverrides для пользовательских идентификаторов провайдеров, исправляет критические зависания и взаимные блокировки, решает проблему понижения версий моделей у суб-агентов и улучшает стабильность голосового режима. В выпуске устранены 18 конкретных проблем, включая запросы разрешений для bash-команд, повреждение сессий и сбои песочницы Linux.

Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением
Mistral AI выпустила Mistral Medium 3.5 — плотную модель на 128B с контекстом 256k, настраиваемым уровнем рассуждений и возможностями распознавания изображений, под модифицированной лицензией MIT.
Opus 4.7 может следовать ~500 инструкциям, по сравнению с ~150 год назад
Исследование, обновленное в мае 2026 года, показывает, что Opus 4.7 может надежно следовать примерно 500 инструкциям, по сравнению с примерно 150 в июле 2025 года. GPT-5.5 справляется примерно с 5000. Последствия для размера файла CLAUDE.md.