Qwen-3.6-27B vs Gemma-4-31B, Claude Haiku, Codex-Spark: тест генерации кода

Пользователь Reddit сравнил локально запущенную модель Qwen-3.6-27B (GGUF q4_k_m) с API-эквивалентами: Qwen-3.6-27B через OpenRouter, Gemma-4-31B через OpenRouter, Claude Haiku 4.5 и GPT-Codex-Spark. Тест заключался в реализации цикла автоисследования из проектного документа — намеренно сложная задача для оценки чистоты отказа, а не успеха.

Аппаратная конфигурация

CPU: Ryzen 7 7800X3D
ОЗУ: 64 ГБ DDR5-6400
GPU: RTX 5080 (16 ГБ VRAM)
Локальная модель: Qwen-3.6-27B q4_k_m (GGUF) — помещается в 16 ГБ VRAM благодаря квантизации

Результаты

Gemma-4-31B (API): Полный провал. Написал скелет с заглушками модулей, без тестов и конфигурационных файлов (__init__.py, requirements.txt, pyproject.toml). Стоимость: $0.112, потреблено 803k токенов контекста, сгенерировано 21k.
Codex-Spark (API): Создал красивую структуру папок и код, но импорты были галлюцинациями. Без модульных тестов. Использовано 1% лимита Spark ($100/мес).
Claude Haiku 4.5 (API): Детальная реализация, но неверная. (Дальнейшие детали обрезаны в источнике.)
Qwen-3.6-27B (локальная q4_k_m): Не оценена явно, но пользователь отмечает, что квантизированный вывод снижает качество по сравнению с полноценной API-версией.

Контекст

Пользователь утверждает, что типичные тесты локальных моделей используют тривиальные задачи (например, Snake в HTML), где и локальные, и передовые модели преуспевают, что завышает возможности локальных моделей. В этом тесте использовался реальный рабочий проект с проектным документом; только Codex-Spark выдал полностью написанный (но сломанный) код. Вывод: локальные модели пока не готовы к сложной генерации кода без существенных доработок.

📖 Читать полный источник: r/LocalLLaMA

Локальные vs облачные модели: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark в сложной генерации кода

Аппаратная конфигурация

Результаты

Контекст

👀 Смотрите также

The Atlantic сообщает о росте насилия против ИИ и политической реакции

Claude Code v2.1.73: Переопределения моделей, исправления стабильности и улучшения производительности

Выпущена модель Mistral Medium 3.5 128B: плотная модель с настраиваемым рассуждением и зрением

Opus 4.7 может следовать ~500 инструкциям, по сравнению с ~150 год назад