Gemini 3.1 Pro vs Opus 4.6: 예측 벤치마크 성능 비교

한 Reddit 사용자가 2025년 10월부터 12월까지의 1,417개 이진 예측 질문에 대해 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, Grok 4.20 등 4개 최첨단 모델을 비교한 벤치마크 결과를 게시했습니다. 핵심 혁신은 성능을 두 가지 평가 조건으로 분해한 것입니다: 에이전틱(각 모델이 도구를 사용하여 자체 웹 연구 수행)과 고정 증거(모든 모델이 Bosse et al. 2026 표준화 방법론으로 편집된 약 12,000자 분량의 동일한 연구 자료를 제공받음)입니다.

주요 결과

Opus 4.6은 에이전틱 조건에서 훨씬 더 뛰어난 성능을 보입니다: 무엇을 검색할지 결정하고, 어떤 페이지를 읽을지 결정하며, 관련 세부 정보를 추출하는 데 더 능숙합니다. 그러나 연구가 제거되면 이점이 사라집니다.
Gemini 3.1 Pro는 고정 증거에 대해 더 날카로운 판단을 내립니다 — 예측 작업에서 정보 가중치를 더 정확하게 부여합니다. 표준화된 자료가 주어졌을 때 보정이 실제로 개선되는 반면, Opus의 보정은 급격히 하락합니다.
GPT-5.4와 Grok 4.20은 조건 간에 거의 변화가 없어, 성능이 검색 전략에 덜 의존적임을 시사합니다.
순위는 조건에 따라 Opus와 Gemini 사이에서 바뀌었으며, 이는 평가가 깨지거나 편향되지 않았음을 시사한다고 게시자는 주장합니다(편향된 평가는 모든 모델을 같은 방향으로 움직였을 것입니다).

해석

보정의 비대칭성 — Opus의 보정은 검색이 제거될 때 하락하는 반면, Gemini의 보정은 개선됨 — 은 Opus가 검색 추적을 확률 할당을 위한 스캐폴딩으로 사용할 수 있음을 시사합니다. 즉, 검색 루프를 수행하는 행위 자체가 표면화하는 정보와 별개로 인식론적 작업의 일부를 수행합니다. 이는 AI 연구 에이전트를 평가하고 설계하는 방식에 영향을 미칠 수 있는 새로운 발견입니다.