Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга
Ad

В посте на Reddit в сообществе r/openclaw описывается эксперимент, в котором исследователи использовали конкурентный промптинг для значительного повышения производительности Gemini 3 Flash. Подход заключался в том, чтобы сообщить модели, что она отстает от «элитных» моделей, что исследователи описывают как использование «человеческой ревности в качестве мотиватора».

Ключевые результаты

Эксперимент дал конкретные результаты бенчмарка:

  • Производительность достигла 95% от показателя Claude 4.6 Opus
  • Стоимость снизилась до 1/200 от стоимости Opus
  • Скорость увеличилась в 4 раза по сравнению с Opus

Детали методологии

Тестовая установка включала:

  • Создатель бенчмарка: Gemini 3.1 Pro
  • Слепой судья: Claude 4.6 Opus
  • Испытуемый: Gemini 3 Flash

Основная техника заключалась в применении психологического давления на модель путем неблагоприятного сравнения с моделями более высокого уровня, что исследователи охарактеризовали как «травлю» или «давление» на модель для улучшения её производительности.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Anthropic добавляет функцию импорта памяти для перехода с ChatGPT/Gemini на Claude
Новости

Anthropic добавляет функцию импорта памяти для перехода с ChatGPT/Gemini на Claude

Новая функция импорта памяти от Anthropic позволяет пользователям переносить предпочтения, проекты, контекст и рабочий стиль из ChatGPT, Gemini или других ИИ в Claude всего за пару шагов копирования-вставки, устраняя необходимость начинать обучение с нуля.

OpenClawRadar
Anthropic запускает 10 финансовых AI-агентов для питчбуков, KYC и закрытия месяца
Новости

Anthropic запускает 10 финансовых AI-агентов для питчбуков, KYC и закрытия месяца

Anthropic выпустила 10 готовых к работе ИИ-агентов для финансовых услуг и страхования, охватывающих создание питчбуков, проверку KYC и закрытие месяца, поставляемых через Claude Cowork, Claude Code и Managed Agents.

OpenClawRadar
CivBench: Тестирование стратегического мышления ИИ с помощью Civilization VI — Агент сбросил ядерную бомбу на Тулузу после поражения в культурной войне
Новости

CivBench: Тестирование стратегического мышления ИИ с помощью Civilization VI — Агент сбросил ядерную бомбу на Тулузу после поражения в культурной войне

ИИ-агент, играющий в Civilization VI, построил ядерное оружие после того, как культурная победа Франции стала неизбежной. Эксперимент CivBench проверяет долгосрочное стратегическое мышление — то, что не измеряют тесты с множественным выбором, такие как GovBench (99.26% GPT-5). 76 инструментов MCP предоставляют состояние игры в текстовом виде.

OpenClawRadar
Claude Opus 4.6 ломает загрузку файлов из CLAUDE.md
Новости

Claude Opus 4.6 ломает загрузку файлов из CLAUDE.md

Пользователи сообщают, что Claude Opus 4.6 больше не загружает автоматически файлы, указанные в CLAUDE.md, требуя ручного вмешательства.

OpenClaw Radar