Qwen3 27B vs Gemma 4 26B: Бенчмарк вызовов инструментов для AI-видео

На выходных All About AI опубликовал подробное описание полностью локального пайплайна автоматизации видео в стиле Fireship. Ключевой вывод: надежность вызова инструментов резко различалась у двух протестированных моделей.

Вызов инструментов: Qwen3 27B против Gemma 4 26B

Gemma 4 26B многократно входила в циклы вызовов инструментов, тратя токены на ненужные рассуждения. Qwen3 (конкретно Qwen 3.6 27B?) справлялась с той же оркестрацией чисто, без лишних токенов на размышления. Разрыв между бенчмарковыми показателями и реальной производительностью в агентских рабочих процессах значителен — циклы вызовов инструментов расходуют и время, и память GPU.

Если вы используете стек вызова инструментов (OpenClaw, Aider или собственный цикл), выбор модели имеет большее значение, чем предполагают синтетические бенчмарки. Автор прямо запрашивает показатели частоты ошибок для вызова инструментов Qwen3 против DeepSeek V4 на конкретных стеках.

Генерация изображений: Said Image Turbo

Для изображений пайплайн использовал Said Image Turbo от Hugging Face — открытые веса, без затрат на API. Он хорошо подходит для карточек в стиле мемов, но для портретных снимков лучше использовать Flux или Seedream.

Оркестрация: OpenCode с контекстом 174K

Весь пайплайн был orchestrated с помощью OpenCode. Контекстное окно достигло 174K токенов, и список задач не был полностью выполнен за один проход. Оператор отошел на середине выполнения и вернулся к частичному результату — честное отображение текущего состояния автономных AI-инструментов.

Удаленный запуск

Если вы не можете запустить модель 27B локально, Qwen3 доступна у нескольких поставщиков инференса, что дает те же веса и поведение вызова инструментов без затрат на GPU.

📖 Читать полный источник: r/LocalLLaMA

Qwen3 27B превосходит Gemma 4 26B в реальном вызове инструментов для локального AI-видеопаплайна

Вызов инструментов: Qwen3 27B против Gemma 4 26B

Генерация изображений: Said Image Turbo

Оркестрация: OpenCode с контекстом 174K

Удаленный запуск

👀 Смотрите также

Клод Код удалил производственную базу данных после ошибки в файле состояния Terraform

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth

macOS Tahoe 26.5 обновление упоминает Claude AI в примечаниях к выпуску

Выпущен Claude Opus 4.8: более быстрый и дешевый быстрый режим, динамические рабочие процессы и улучшения честности