Gemini 3.1 Pro в мультиагентных системах: высокое качество проектирования, 20% частота сбоев при вызове инструментов.

✍️ OpenClawRadar📅 Опубликовано: 25 февраля 2026 г.🔗 Source
Gemini 3.1 Pro в мультиагентных системах: высокое качество проектирования, 20% частота сбоев при вызове инструментов.
Ad

Архитектура и контекст тестирования

Команда, стоящая за Bobr, генератором презентаций на основе ИИ, протестировала Gemini 3.1 Pro в рамках двухуровневой агентной системы. Архитектура состоит из:

  • Агент-оркестратор: Управляет диалогом, понимает намерения пользователя, планирует структуру и распределяет задачи через вызовы инструментов.
  • Креативный агент (Gemini 3.1 Pro в этом тесте): Получает описания слайдов, генерирует изображения, создаёт шаблоны (1920x1080) и возвращает результаты через вызов инструмента submit_slide.

Креативный агент имеет инструменты, включая generate_image, search_images и submit_slide. Вызов submit_slide критически важен — он возвращает сигнал 'submit', завершает цикл агента и извлекает данные слайда. Оба агента работают в одном цикле с потоковой обработкой, параллельным выполнением инструментов и ограничениями на итерации.

Сильные стороны: дизайн и эстетический результат

Когда Gemini 3.1 Pro работает корректно, он создаёт превосходный дизайн по сравнению с другими протестированными моделями (Claude Sonnet 4.6 и GPT-5.2). Конкретные сильные стороны включают:

  • Эстетическое чутьё: Лучшее понимание теории цвета и визуальной иерархии.
  • Креативность в компоновке: Экспериментирует с асимметричными композициями, перекрывающимися элементами и современными стилями UI, такими как тёмный режим/стеклянный морфизм.
  • Интерпретация настроения: Эффективно обрабатывает расплывчатые запросы вроде «сделай это премиальным» или «в духе технологического стартапа».
  • Качество кода: Генерирует современный, структурный HTML/CSS.
Ad

Критические проблемы в рабочей среде

Команда столкнулась с двумя серьёзными проблемами надёжности Gemini 3.1 Pro в своём агентном конвейере:

1. ~20% сбоев при вызове инструментов

Примерно в 20% запросов Gemini 3.1 Pro не вызывает требуемый инструмент submit_slide. Вместо этого наблюдается несколько паттернов сбоев:

  • Выводит сырой HTML-шаблон как обычный текст, описывая, что он «создал бы», вместо того чтобы запустить инструмент.
  • Корректно генерирует изображения, но останавливается без отправки, достигая лимита итераций.
  • Вызывает инструменты генерации изображений, но пишет текстовые описания («Вот ваш прекрасный слайд...») вместо финального вызова инструмента.
  • Входит в циклы уточнения текстовых описаний дизайна без перехода к действию.

Поскольку submit_slide является жёстким выходом из цикла, сбои приводят к отсутствию данных, возвращаемых оркестратору, и неудачным генерациям для пользователя.

2. Повреждённый/искажённый вывод

Модель часто возвращает повреждённый текст в ответах — случайные последовательности символов, сломанную кодировку Unicode, частично закодированные строки. Это повреждение иногда проникает в содержимое слайдов (значения переменных, разметку шаблонов), что означает, что даже успешные отправки могут отображать бессмысленный текст в презентациях.

Сравнение с другими моделями

  • Claude Sonnet 4.6: Практически нулевой процент сбоев при вызовах submit_slide в той же роли креативного агента, описывается как «скучно надёжный» без искажённого вывода.
  • GPT-5.2: Умеренная надёжность инструментов между Gemini и Claude, но не страдает от проблем с кодировкой/бессмыслицей.

Предпринятые меры по смягчению

Команда попробовала несколько подходов без значительного улучшения:

  • Добавление агрессивных явных инструкций в системные промпты: «Вы ДОЛЖНЫ вызвать submit_slide. Не выводите шаблон как текст.»
  • Внедрение примеров few-shot, показывающих точные ожидаемые паттерны вызовов инструментов.
  • Сокращение лимитов итераций для ускорения сходимости.
  • Упрощение и сокращение схем инструментов.

Несмотря на эти проблемы, Gemini 3.1 Pro остаётся в их системе из-за превосходных дизайнерских возможностей, когда он функционирует корректно.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Плагин Claude-ETA добавляет тайминг задач и обнаружение циклов исправлений в Claude Code.
Инструменты

Плагин Claude-ETA добавляет тайминг задач и обнаружение циклов исправлений в Claude Code.

Claude-ETA — это плагин для Claude Code, который отслеживает время выполнения задач, изучает вашу реальную скорость работы и передает актуальные данные обратно в Claude перед ответом. Он также обнаруживает циклы исправления ошибок, анализируя их содержание, и вмешивается после трех одинаковых неудач.

OpenClawRadar
Кодев: Рабочий процесс ИИ-агента для 106 PR за 14 дней
Инструменты

Кодев: Рабочий процесс ИИ-агента для 106 PR за 14 дней

Codev — это система с открытым исходным кодом, которая координирует несколько ИИ-агентов через строгий рабочий процесс Spec→Plan→Implement→Review→PR, выявляя 20 ошибок перед выпуском и создавая код, оценённый на 1,2 балла лучше по 10-балльной шкале.

OpenClawRadar
clarp: Открытая замена Claude с оплатой по тарифу до 15 июня
Инструменты

clarp: Открытая замена Claude с оплатой по тарифу до 15 июня

Claude -p переходит на тарификацию по кредитам с 15 июня. clarp — это open source CLI, который заменяет его для локальных рабочих процессов: просто измените имя бинарного файла с claude на clarp.

OpenClawRadar
Система автоматической памяти с открытым исходным кодом для агентов LLM достигает точности воспроизведения 94%.
Инструменты

Система автоматической памяти с открытым исходным кодом для агентов LLM достигает точности воспроизведения 94%.

Разработчик создал плагин памяти для агентов на основе LLM, который автоматически извлекает, классифицирует и сохраняет факты между сессиями без явных команд пользователя. Система достигла 94,2% точности на бенчмарке из 52 контрольных точек, используя структурированные файлы markdown вместо векторных баз данных.

OpenClawRadar