Gemini Flash: 95% Claude Opus за 1/200 стоимости

В посте на Reddit в сообществе r/openclaw описывается эксперимент, в котором исследователи использовали конкурентный промптинг для значительного повышения производительности Gemini 3 Flash. Подход заключался в том, чтобы сообщить модели, что она отстает от «элитных» моделей, что исследователи описывают как использование «человеческой ревности в качестве мотиватора».

Ключевые результаты

Эксперимент дал конкретные результаты бенчмарка:

Производительность достигла 95% от показателя Claude 4.6 Opus
Стоимость снизилась до 1/200 от стоимости Opus
Скорость увеличилась в 4 раза по сравнению с Opus

Детали методологии

Тестовая установка включала:

Создатель бенчмарка: Gemini 3.1 Pro
Слепой судья: Claude 4.6 Opus
Испытуемый: Gemini 3 Flash

Основная техника заключалась в применении психологического давления на модель путем неблагоприятного сравнения с моделями более высокого уровня, что исследователи охарактеризовали как «травлю» или «давление» на модель для улучшения её производительности.

📖 Read the full source: r/openclaw

Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга

Ключевые результаты

Детали методологии

👀 Смотрите также

Anthropic добавляет функцию импорта памяти для перехода с ChatGPT/Gemini на Claude

Anthropic запускает 10 финансовых AI-агентов для питчбуков, KYC и закрытия месяца

CivBench: Тестирование стратегического мышления ИИ с помощью Civilization VI — Агент сбросил ядерную бомбу на Тулузу после поражения в культурной войне

Claude Opus 4.6 ломает загрузку файлов из CLAUDE.md