Opus 4.6 превосходит в исследованиях, Gemini 3.1 Pro лучше в прогнозировании

✍️ OpenClawRadar📅 Опубликовано: 7 мая 2026 г.🔗 Source

Пользователь Reddit опубликовал результаты бенчмарка, сравнивающего четыре передовые модели — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro и Grok 4.20 — на 1417 бинарных вопросах для прогнозирования за октябрь–декабрь 2025 года. Ключевая инновация заключается в разложении производительности на два оценочных условия: агентное (каждая модель самостоятельно проводит веб-исследования с помощью инструментов) и фиксированные данные (все модели получают одинаковое досье объемом ~12 000 символов, составленное по методологии стандартизации Боссе и др., 2026).

Ключевые выводы

Opus 4.6 показывает значительно лучшие результаты в агентном условии: он лучше определяет, что искать, какие страницы читать и как извлекать релевантные детали. Однако, когда исследование исключается, его преимущество исчезает.
Gemini 3.1 Pro демонстрирует более точные суждения на фиксированных данных — он взвешивает информацию точнее в задачах прогнозирования. Его калибровка фактически улучшается при получении стандартизированного досье, в то время как калибровка Opus резко падает.
GPT-5.4 и Grok 4.20 почти не изменились между условиями, что предполагает меньшую зависимость их производительности от стратегии поиска.
Порядок ранжирования между Opus и Gemini поменялся в разных условиях, что, по мнению автора, указывает на то, что оценка не является сломанной или предвзятой (предвзятая оценка, вероятно, сдвинула бы все модели в одном направлении).

Интерпретация

Асимметрия в калибровке — калибровка Opus падает, когда поиск исключается, а калибровка Gemini улучшается — предполагает, что Opus может использовать свой поисковый след как опору для назначения вероятностей. Другими словами, сам процесс выполнения поискового цикла выполняет часть эпистемической работы, отдельно от той информации, которую он извлекает. Это новый вывод, который может иметь последствия для того, как мы оцениваем и проектируем ИИ-исследовательских агентов.

Ограничения и ресурсы

Досье с фиксированными данными сами созданы языковой моделью, поэтому тест может измерять, насколько хорошо каждая модель интерпретирует конкретную стандартизированную версию данных, а не абстрактное суждение. Автор отмечает это как ограничение, но утверждает, что различное поведение моделей снижает эту обеспокоенность.

Полные показатели калибровки, уточнения и анализ по условиям доступны по адресу: futuresearch.ai/opus-research-gemini-judgment. Бенчмарк и таблица лидеров находятся по адресу: evals.futuresearch.ai.

Насколько известно автору, это первая прямая оценка передовых моделей, разделяющая производительность на этапы исследования и суждения. Они приглашают к репликации в других областях.

📖 Читать полный источник: r/ClaudeAI

👀 Смотрите также

Новости

Nemotron 3 4B уступает Qwen 3.5 4B в сложных тестах производительности.

Пользователь Reddit протестировал Nemotron 3 4B Q8 против Qwen 3.5 4B Q8 на сложных математических и программистских задачах, обнаружив, что Nemotron не смог предоставить корректные рассуждения и структурированный вывод, в то время как Qwen успешно прошел все тесты.

19 мар. 2026 г., 05:45 UTC

OpenClawRadar

Новости

Проект SDL запрещает коммиты, написанные ИИ, в ответ на проблему на GitHub

Проект SDL внедрил политику, запрещающую коммиты, сгенерированные искусственным интеллектом, после того как проблема на GitHub подняла вопросы об использовании Copilot в проверках кода. В проблеме конкретно упоминаются проверки #13277 и #12730 в качестве примеров, где была обнаружена помощь ИИ.

18 апр. 2026 г., 10:45 UTC

OpenClawRadar

Новости

Claude Code 2.1.63 добавляет встроенные слеш-команды, HTTP-хуки и исправления утечек памяти.

Anthropic выпустила Claude Code 2.1.63 с 26 изменениями в CLI, включая новые слеш-команды /simplify и /batch, HTTP-хуки, отправляющие JSON на URL-адреса, и исправления нескольких утечек памяти в длительных сессиях.

28 февр. 2026 г., 10:45 UTC

OpenClawRadar

Новости

Стартапы сообщают о больших расходах на вычислительные мощности для ИИ, чем на зарплаты сотрудников.

Стартапы в области ИИ, такие как Swan AI, сообщают о ежемесячных счетах за вычисления ИИ, превышающих 113 тыс. долларов. Генеральные директора описывают это как 'токенмаксинг', когда расходы на ИИ заменяют традиционные бюджеты на персонал.

22 апр. 2026 г., 20:20 UTC

OpenClawRadar