Локальные vs облачные модели: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark в сложной генерации кода

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source
Локальные vs облачные модели: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark в сложной генерации кода
Ad

Пользователь Reddit сравнил локально запущенную модель Qwen-3.6-27B (GGUF q4_k_m) с API-эквивалентами: Qwen-3.6-27B через OpenRouter, Gemma-4-31B через OpenRouter, Claude Haiku 4.5 и GPT-Codex-Spark. Тест заключался в реализации цикла автоисследования из проектного документа — намеренно сложная задача для оценки чистоты отказа, а не успеха.

Аппаратная конфигурация

  • CPU: Ryzen 7 7800X3D
  • ОЗУ: 64 ГБ DDR5-6400
  • GPU: RTX 5080 (16 ГБ VRAM)
  • Локальная модель: Qwen-3.6-27B q4_k_m (GGUF) — помещается в 16 ГБ VRAM благодаря квантизации

Результаты

  • Gemma-4-31B (API): Полный провал. Написал скелет с заглушками модулей, без тестов и конфигурационных файлов (__init__.py, requirements.txt, pyproject.toml). Стоимость: $0.112, потреблено 803k токенов контекста, сгенерировано 21k.
  • Codex-Spark (API): Создал красивую структуру папок и код, но импорты были галлюцинациями. Без модульных тестов. Использовано 1% лимита Spark ($100/мес).
  • Claude Haiku 4.5 (API): Детальная реализация, но неверная. (Дальнейшие детали обрезаны в источнике.)
  • Qwen-3.6-27B (локальная q4_k_m): Не оценена явно, но пользователь отмечает, что квантизированный вывод снижает качество по сравнению с полноценной API-версией.
Ad

Контекст

Пользователь утверждает, что типичные тесты локальных моделей используют тривиальные задачи (например, Snake в HTML), где и локальные, и передовые модели преуспевают, что завышает возможности локальных моделей. В этом тесте использовался реальный рабочий проект с проектным документом; только Codex-Spark выдал полностью написанный (но сломанный) код. Вывод: локальные модели пока не готовы к сложной генерации кода без существенных доработок.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

🦀
Новости

The Atlantic сообщает о росте насилия против ИИ и политической реакции

Берни Сандерс и Стив Бэннон оба осуждают ИИ как угрозу для рабочих. Нападение с коктейлем Молотова на дом Сэма Альтмана и стрельба по дому члена городского совета Индианаполиса свидетельствуют о росте насилия против дата-центров.

OpenClawRadar
Claude Code v2.1.73: Переопределения моделей, исправления стабильности и улучшения производительности
Новости

Claude Code v2.1.73: Переопределения моделей, исправления стабильности и улучшения производительности

Claude Code v2.1.73 добавляет modelOverrides для пользовательских идентификаторов провайдеров, исправляет критические зависания и взаимные блокировки, решает проблему понижения версий моделей у суб-агентов и улучшает стабильность голосового режима. В выпуске устранены 18 конкретных проблем, включая запросы разрешений для bash-команд, повреждение сессий и сбои песочницы Linux.

OpenClawRadar
Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением
Новости

Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением

Mistral AI выпустила Mistral Medium 3.5 — плотную модель на 128B с контекстом 256k, настраиваемым уровнем рассуждений и возможностями распознавания изображений, под модифицированной лицензией MIT.

OpenClawRadar
🦀
Новости

Opus 4.7 может следовать ~500 инструкциям, по сравнению с ~150 год назад

Исследование, обновленное в мае 2026 года, показывает, что Opus 4.7 может надежно следовать примерно 500 инструкциям, по сравнению с примерно 150 в июле 2025 года. GPT-5.5 справляется примерно с 5000. Последствия для размера файла CLAUDE.md.

OpenClawRadar