Gemini 3.1 Pro vs Opus 4.6: Benchmark de 1,417 preguntas

Un usuario de Reddit publicó los resultados de un benchmark que compara cuatro modelos frontera — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro y Grok 4.20 — en 1,417 preguntas de predicción binaria de octubre a diciembre de 2025. La innovación clave es descomponer el rendimiento en dos condiciones de evaluación: agéntica (cada modelo realiza su propia investigación web usando herramientas) y evidencia fija (todos los modelos reciben el mismo dossier de investigación de ~12,000 caracteres compilado mediante la metodología de estandarización de Bosse et al. 2026).

Hallazgos clave

Opus 4.6 funciona dramáticamente mejor en la condición agéntica: es mejor para descubrir qué buscar, decidir qué páginas leer y extraer detalles relevantes. Sin embargo, cuando se elimina la investigación, su ventaja desaparece.
Gemini 3.1 Pro ofrece un juicio más preciso sobre evidencia fija — pondera la información con mayor exactitud en tareas de predicción. Su calibración en realidad mejora cuando recibe el dossier estandarizado, mientras que la calibración de Opus cae bruscamente.
GPT-5.4 y Grok 4.20 apenas cambiaron entre condiciones, lo que sugiere que su rendimiento depende menos de la estrategia de búsqueda.
El orden de clasificación se invirtió entre Opus y Gemini según las condiciones, lo que, según el autor, indica que la evaluación no está rota ni sesgada (una evaluación sesgada probablemente movería todos los modelos en la misma dirección).

Interpretación

La asimetría en la calibración — la calibración de Opus cae cuando se elimina la búsqueda, mientras que la de Gemini mejora — sugiere que Opus puede estar usando su rastro de búsqueda como andamiaje para la asignación de probabilidades. En otras palabras, el acto de realizar el bucle de búsqueda en sí mismo hace parte del trabajo epistémico, separado de la información que descubre. Este es un hallazgo novedoso que podría tener implicaciones para cómo evaluamos y diseñamos agentes de investigación de IA.

Limitaciones y recursos

Los dossiers de evidencia fija son generados por LM, por lo que la prueba puede medir qué tan bien interpreta cada modelo una versión estandarizada particular de la evidencia, en lugar de un juicio abstracto. El autor señala esto como una limitación, pero argumenta que el comportamiento divergente entre modelos reduce la preocupación.

Las puntuaciones completas de calibración, refinamiento y el análisis por condición están disponibles en: futuresearch.ai/opus-research-gemini-judgment. El benchmark y el leaderboard están en: evals.futuresearch.ai.

Según el autor, esta es la primera evaluación directa de modelos frontera que descompone el rendimiento en etapas de investigación y juicio. Invita a la replicación en otros dominios.

📖 Lee la fuente completa: r/ClaudeAI

Opus 4.6 destaca en investigación, Gemini 3.1 Pro tiene mejor juicio en tareas de pronóstico

Hallazgos clave

Interpretación

Limitaciones y recursos

👀 Ver también

ThinkPad, 34 años de trayectoria: del IBM 700C a las estaciones de trabajo AI de Lenovo

Claude Code evolucionando hacia un sistema operativo de ingeniería en lugar de solo un chat de código de IA

Error de plugin Claude Code Telegram: Notificaciones MCP silenciosamente omitidas — Solución alternativa mediante sondeo de archivos e inyección de tmux

Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft