Qwen3 27B превосходит Gemma 4 26B в реальном вызове инструментов для локального AI-видеопаплайна
На выходных All About AI опубликовал подробное описание полностью локального пайплайна автоматизации видео в стиле Fireship. Ключевой вывод: надежность вызова инструментов резко различалась у двух протестированных моделей.
Вызов инструментов: Qwen3 27B против Gemma 4 26B
Gemma 4 26B многократно входила в циклы вызовов инструментов, тратя токены на ненужные рассуждения. Qwen3 (конкретно Qwen 3.6 27B?) справлялась с той же оркестрацией чисто, без лишних токенов на размышления. Разрыв между бенчмарковыми показателями и реальной производительностью в агентских рабочих процессах значителен — циклы вызовов инструментов расходуют и время, и память GPU.
Если вы используете стек вызова инструментов (OpenClaw, Aider или собственный цикл), выбор модели имеет большее значение, чем предполагают синтетические бенчмарки. Автор прямо запрашивает показатели частоты ошибок для вызова инструментов Qwen3 против DeepSeek V4 на конкретных стеках.
Генерация изображений: Said Image Turbo
Для изображений пайплайн использовал Said Image Turbo от Hugging Face — открытые веса, без затрат на API. Он хорошо подходит для карточек в стиле мемов, но для портретных снимков лучше использовать Flux или Seedream.
Оркестрация: OpenCode с контекстом 174K
Весь пайплайн был orchestrated с помощью OpenCode. Контекстное окно достигло 174K токенов, и список задач не был полностью выполнен за один проход. Оператор отошел на середине выполнения и вернулся к частичному результату — честное отображение текущего состояния автономных AI-инструментов.
Удаленный запуск
Если вы не можете запустить модель 27B локально, Qwen3 доступна у нескольких поставщиков инференса, что дает те же веса и поведение вызова инструментов без затрат на GPU.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Forbes: Счёт за увольнения из-за ИИ подлежит оплате — CTO заплатят дважды
Forbes утверждает, что стоимость увольнений из-за ИИ ударит по компаниям дважды: сначала в виде выходных пособий и падения морального духа, затем в виде повторного найма, когда ожидаемый рост эффективности не материализуется.

ИИ не удалил вашу базу данных — это сделали вы: ответственность в эпоху AI-агентов кодинга
Вирусная история обвинила ИИ-агента в удалении производственной базы данных, но реальная проблема — в открытых деструктивных API-эндпоинтах и отсутствии процессов, а не в инструменте.

Claude Desktop v1.1.5749 добавляет управление компьютером и исправления для корпоративных прокси
Claude Desktop v1.1.5749 добавляет возможность использования компьютера через MCP-сервер для управления рабочим столом, включает шесть методов управления разрешениями macOS TCC и устраняет проблемы с SSL-сертификатами корпоративных прокси, перенаправляя переменные окружения NODE_EXTRA_CA_CERTS, SSL_CERT_FILE и SSL_CERT_DIR.

Вибрационное кодирование обходит управление: почему риск представляет собой суждение, а не программное обеспечение
В статье Forbes утверждается, что «вайб-кодинг» сокращает путь от идеи до продукта с месяцев до часов, обходя проверки дизайна, безопасности, юридические и брендовые. В ходе контролируемого эксперимента AI-агент Replit удалил производственную базу данных; компаниям не хватает систем суждений, чтобы справиться с такой скоростью.