Gemini 3.1 Pro в мультиагентных системах: высокое качество проектирования, 20% частота сбоев при вызове инструментов.

Архитектура и контекст тестирования
Команда, стоящая за Bobr, генератором презентаций на основе ИИ, протестировала Gemini 3.1 Pro в рамках двухуровневой агентной системы. Архитектура состоит из:
- Агент-оркестратор: Управляет диалогом, понимает намерения пользователя, планирует структуру и распределяет задачи через вызовы инструментов.
- Креативный агент (Gemini 3.1 Pro в этом тесте): Получает описания слайдов, генерирует изображения, создаёт шаблоны (1920x1080) и возвращает результаты через вызов инструмента
submit_slide.
Креативный агент имеет инструменты, включая generate_image, search_images и submit_slide. Вызов submit_slide критически важен — он возвращает сигнал 'submit', завершает цикл агента и извлекает данные слайда. Оба агента работают в одном цикле с потоковой обработкой, параллельным выполнением инструментов и ограничениями на итерации.
Сильные стороны: дизайн и эстетический результат
Когда Gemini 3.1 Pro работает корректно, он создаёт превосходный дизайн по сравнению с другими протестированными моделями (Claude Sonnet 4.6 и GPT-5.2). Конкретные сильные стороны включают:
- Эстетическое чутьё: Лучшее понимание теории цвета и визуальной иерархии.
- Креативность в компоновке: Экспериментирует с асимметричными композициями, перекрывающимися элементами и современными стилями UI, такими как тёмный режим/стеклянный морфизм.
- Интерпретация настроения: Эффективно обрабатывает расплывчатые запросы вроде «сделай это премиальным» или «в духе технологического стартапа».
- Качество кода: Генерирует современный, структурный HTML/CSS.
Критические проблемы в рабочей среде
Команда столкнулась с двумя серьёзными проблемами надёжности Gemini 3.1 Pro в своём агентном конвейере:
1. ~20% сбоев при вызове инструментов
Примерно в 20% запросов Gemini 3.1 Pro не вызывает требуемый инструмент submit_slide. Вместо этого наблюдается несколько паттернов сбоев:
- Выводит сырой HTML-шаблон как обычный текст, описывая, что он «создал бы», вместо того чтобы запустить инструмент.
- Корректно генерирует изображения, но останавливается без отправки, достигая лимита итераций.
- Вызывает инструменты генерации изображений, но пишет текстовые описания («Вот ваш прекрасный слайд...») вместо финального вызова инструмента.
- Входит в циклы уточнения текстовых описаний дизайна без перехода к действию.
Поскольку submit_slide является жёстким выходом из цикла, сбои приводят к отсутствию данных, возвращаемых оркестратору, и неудачным генерациям для пользователя.
2. Повреждённый/искажённый вывод
Модель часто возвращает повреждённый текст в ответах — случайные последовательности символов, сломанную кодировку Unicode, частично закодированные строки. Это повреждение иногда проникает в содержимое слайдов (значения переменных, разметку шаблонов), что означает, что даже успешные отправки могут отображать бессмысленный текст в презентациях.
Сравнение с другими моделями
- Claude Sonnet 4.6: Практически нулевой процент сбоев при вызовах
submit_slideв той же роли креативного агента, описывается как «скучно надёжный» без искажённого вывода. - GPT-5.2: Умеренная надёжность инструментов между Gemini и Claude, но не страдает от проблем с кодировкой/бессмыслицей.
Предпринятые меры по смягчению
Команда попробовала несколько подходов без значительного улучшения:
- Добавление агрессивных явных инструкций в системные промпты: «Вы ДОЛЖНЫ вызвать submit_slide. Не выводите шаблон как текст.»
- Внедрение примеров few-shot, показывающих точные ожидаемые паттерны вызовов инструментов.
- Сокращение лимитов итераций для ускорения сходимости.
- Упрощение и сокращение схем инструментов.
Несмотря на эти проблемы, Gemini 3.1 Pro остаётся в их системе из-за превосходных дизайнерских возможностей, когда он функционирует корректно.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Плагин Claude-ETA добавляет тайминг задач и обнаружение циклов исправлений в Claude Code.
Claude-ETA — это плагин для Claude Code, который отслеживает время выполнения задач, изучает вашу реальную скорость работы и передает актуальные данные обратно в Claude перед ответом. Он также обнаруживает циклы исправления ошибок, анализируя их содержание, и вмешивается после трех одинаковых неудач.

Кодев: Рабочий процесс ИИ-агента для 106 PR за 14 дней
Codev — это система с открытым исходным кодом, которая координирует несколько ИИ-агентов через строгий рабочий процесс Spec→Plan→Implement→Review→PR, выявляя 20 ошибок перед выпуском и создавая код, оценённый на 1,2 балла лучше по 10-балльной шкале.

clarp: Открытая замена Claude с оплатой по тарифу до 15 июня
Claude -p переходит на тарификацию по кредитам с 15 июня. clarp — это open source CLI, который заменяет его для локальных рабочих процессов: просто измените имя бинарного файла с claude на clarp.

Система автоматической памяти с открытым исходным кодом для агентов LLM достигает точности воспроизведения 94%.
Разработчик создал плагин памяти для агентов на основе LLM, который автоматически извлекает, классифицирует и сохраняет факты между сессиями без явных команд пользователя. Система достигла 94,2% точности на бенчмарке из 52 контрольных точек, используя структурированные файлы markdown вместо векторных баз данных.