Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга

В посте на Reddit в сообществе r/openclaw описывается эксперимент, в котором исследователи использовали конкурентный промптинг для значительного повышения производительности Gemini 3 Flash. Подход заключался в том, чтобы сообщить модели, что она отстает от «элитных» моделей, что исследователи описывают как использование «человеческой ревности в качестве мотиватора».
Ключевые результаты
Эксперимент дал конкретные результаты бенчмарка:
- Производительность достигла 95% от показателя Claude 4.6 Opus
- Стоимость снизилась до 1/200 от стоимости Opus
- Скорость увеличилась в 4 раза по сравнению с Opus
Детали методологии
Тестовая установка включала:
- Создатель бенчмарка: Gemini 3.1 Pro
- Слепой судья: Claude 4.6 Opus
- Испытуемый: Gemini 3 Flash
Основная техника заключалась в применении психологического давления на модель путем неблагоприятного сравнения с моделями более высокого уровня, что исследователи охарактеризовали как «травлю» или «давление» на модель для улучшения её производительности.
📖 Read the full source: r/openclaw
👀 Смотрите также

Anthropic добавляет функцию импорта памяти для перехода с ChatGPT/Gemini на Claude
Новая функция импорта памяти от Anthropic позволяет пользователям переносить предпочтения, проекты, контекст и рабочий стиль из ChatGPT, Gemini или других ИИ в Claude всего за пару шагов копирования-вставки, устраняя необходимость начинать обучение с нуля.

Anthropic запускает 10 финансовых AI-агентов для питчбуков, KYC и закрытия месяца
Anthropic выпустила 10 готовых к работе ИИ-агентов для финансовых услуг и страхования, охватывающих создание питчбуков, проверку KYC и закрытие месяца, поставляемых через Claude Cowork, Claude Code и Managed Agents.

CivBench: Тестирование стратегического мышления ИИ с помощью Civilization VI — Агент сбросил ядерную бомбу на Тулузу после поражения в культурной войне
ИИ-агент, играющий в Civilization VI, построил ядерное оружие после того, как культурная победа Франции стала неизбежной. Эксперимент CivBench проверяет долгосрочное стратегическое мышление — то, что не измеряют тесты с множественным выбором, такие как GovBench (99.26% GPT-5). 76 инструментов MCP предоставляют состояние игры в текстовом виде.

Claude Opus 4.6 ломает загрузку файлов из CLAUDE.md
Пользователи сообщают, что Claude Opus 4.6 больше не загружает автоматически файлы, указанные в CLAUDE.md, требуя ручного вмешательства.