Gemini 3.1 Pro в мультиагентных системах: высокое качество проектирования, 20% частота сбоев при вызове инструментов.

✍️ OpenClawRadar📅 Опубликовано: 25 февраля 2026 г.🔗 Source

Архитектура и контекст тестирования

Команда, стоящая за Bobr, генератором презентаций на основе ИИ, протестировала Gemini 3.1 Pro в рамках двухуровневой агентной системы. Архитектура состоит из:

Агент-оркестратор: Управляет диалогом, понимает намерения пользователя, планирует структуру и распределяет задачи через вызовы инструментов.
Креативный агент (Gemini 3.1 Pro в этом тесте): Получает описания слайдов, генерирует изображения, создаёт шаблоны (1920x1080) и возвращает результаты через вызов инструмента submit_slide.

Креативный агент имеет инструменты, включая generate_image, search_images и submit_slide. Вызов submit_slide критически важен — он возвращает сигнал 'submit', завершает цикл агента и извлекает данные слайда. Оба агента работают в одном цикле с потоковой обработкой, параллельным выполнением инструментов и ограничениями на итерации.

Сильные стороны: дизайн и эстетический результат

Когда Gemini 3.1 Pro работает корректно, он создаёт превосходный дизайн по сравнению с другими протестированными моделями (Claude Sonnet 4.6 и GPT-5.2). Конкретные сильные стороны включают:

Эстетическое чутьё: Лучшее понимание теории цвета и визуальной иерархии.
Креативность в компоновке: Экспериментирует с асимметричными композициями, перекрывающимися элементами и современными стилями UI, такими как тёмный режим/стеклянный морфизм.
Интерпретация настроения: Эффективно обрабатывает расплывчатые запросы вроде «сделай это премиальным» или «в духе технологического стартапа».
Качество кода: Генерирует современный, структурный HTML/CSS.

Критические проблемы в рабочей среде

Команда столкнулась с двумя серьёзными проблемами надёжности Gemini 3.1 Pro в своём агентном конвейере:

1. ~20% сбоев при вызове инструментов

Примерно в 20% запросов Gemini 3.1 Pro не вызывает требуемый инструмент submit_slide. Вместо этого наблюдается несколько паттернов сбоев:

Выводит сырой HTML-шаблон как обычный текст, описывая, что он «создал бы», вместо того чтобы запустить инструмент.
Корректно генерирует изображения, но останавливается без отправки, достигая лимита итераций.
Вызывает инструменты генерации изображений, но пишет текстовые описания («Вот ваш прекрасный слайд...») вместо финального вызова инструмента.
Входит в циклы уточнения текстовых описаний дизайна без перехода к действию.

Поскольку submit_slide является жёстким выходом из цикла, сбои приводят к отсутствию данных, возвращаемых оркестратору, и неудачным генерациям для пользователя.

2. Повреждённый/искажённый вывод

Модель часто возвращает повреждённый текст в ответах — случайные последовательности символов, сломанную кодировку Unicode, частично закодированные строки. Это повреждение иногда проникает в содержимое слайдов (значения переменных, разметку шаблонов), что означает, что даже успешные отправки могут отображать бессмысленный текст в презентациях.

Сравнение с другими моделями

Claude Sonnet 4.6: Практически нулевой процент сбоев при вызовах submit_slide в той же роли креативного агента, описывается как «скучно надёжный» без искажённого вывода.
GPT-5.2: Умеренная надёжность инструментов между Gemini и Claude, но не страдает от проблем с кодировкой/бессмыслицей.

Предпринятые меры по смягчению

Команда попробовала несколько подходов без значительного улучшения:

Добавление агрессивных явных инструкций в системные промпты: «Вы ДОЛЖНЫ вызвать submit_slide. Не выводите шаблон как текст.»
Внедрение примеров few-shot, показывающих точные ожидаемые паттерны вызовов инструментов.
Сокращение лимитов итераций для ускорения сходимости.
Упрощение и сокращение схем инструментов.

Несмотря на эти проблемы, Gemini 3.1 Pro остаётся в их системе из-за превосходных дизайнерских возможностей, когда он функционирует корректно.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Utilyze: Монитор GPU с открытым исходным кодом, измеряющий реальную вычислительную пропускную способность, а не только активность ядра

Utilyze выбирает образцы аппаратных счетчиков производительности, чтобы сообщать вычислительную и памятьную пропускную способность относительно теоретических пределов, показывая, что панели с 100% загрузкой могут иметь всего 1-10% реальной пропускной способности.

27 апр. 2026 г., 18:16 UTC

OpenClawRadar

Инструменты

Сравнение мультиагентных систем ИИ: Harness от Anthropic и модель инженерной организации Agyn

Anthropic опубликовала дизайн фреймворка для разработки долгоиграющих приложений, в то время как мультиагентная система Agyn для командной автономной разработки ПО была открыта в прошлом месяце. Обе системы отвергают монолитные агенты в пользу разделения ролей, структурированных передач и циклов проверки.

31 мар. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Плагин Creative Excellence для Claude Code повышает качество анимации с помощью тезиса взаимодействия

Новый плагин с открытым исходным кодом для Claude Code решает проблему создания шаблонных анимаций, внедряя подход 'интерактивной концепции', при котором Claude должен сначала описать идею движения, прежде чем писать код. Плагин включает 8 поднавыков, охватывающих GSAP, Framer Motion, CSS-анимации и принципы дизайна из изученных репозиториев.

7 апр. 2026 г., 13:45 UTC

OpenClawRadar

Инструменты

engram v3.4.0 добавляет плагин Anthropic для поддержания работы Claude Code в условиях новых лимитов скорости

engram v3.4.0 представляет выделенный плагин Anthropic для Claude Code, добавляющий три навыка для управления затратами, запроса контекста и выявления ошибок. Установите с помощью `/plugin install engram` или `npm install -g engramx@latest`.

18 мая 2026 г., 14:15 UTC

OpenClawRadar