Opus 4.6은 연구에서 뛰어난 반면, Gemini 3.1 Pro는 예측 벤치마크에서 더 나은 판단력을 보입니다

한 Reddit 사용자가 2025년 10월부터 12월까지의 1,417개 이진 예측 질문에 대해 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, Grok 4.20 등 4개 최첨단 모델을 비교한 벤치마크 결과를 게시했습니다. 핵심 혁신은 성능을 두 가지 평가 조건으로 분해한 것입니다: 에이전틱(각 모델이 도구를 사용하여 자체 웹 연구 수행)과 고정 증거(모든 모델이 Bosse et al. 2026 표준화 방법론으로 편집된 약 12,000자 분량의 동일한 연구 자료를 제공받음)입니다.
주요 결과
- Opus 4.6은 에이전틱 조건에서 훨씬 더 뛰어난 성능을 보입니다: 무엇을 검색할지 결정하고, 어떤 페이지를 읽을지 결정하며, 관련 세부 정보를 추출하는 데 더 능숙합니다. 그러나 연구가 제거되면 이점이 사라집니다.
- Gemini 3.1 Pro는 고정 증거에 대해 더 날카로운 판단을 내립니다 — 예측 작업에서 정보 가중치를 더 정확하게 부여합니다. 표준화된 자료가 주어졌을 때 보정이 실제로 개선되는 반면, Opus의 보정은 급격히 하락합니다.
- GPT-5.4와 Grok 4.20은 조건 간에 거의 변화가 없어, 성능이 검색 전략에 덜 의존적임을 시사합니다.
- 순위는 조건에 따라 Opus와 Gemini 사이에서 바뀌었으며, 이는 평가가 깨지거나 편향되지 않았음을 시사한다고 게시자는 주장합니다(편향된 평가는 모든 모델을 같은 방향으로 움직였을 것입니다).
해석
보정의 비대칭성 — Opus의 보정은 검색이 제거될 때 하락하는 반면, Gemini의 보정은 개선됨 — 은 Opus가 검색 추적을 확률 할당을 위한 스캐폴딩으로 사용할 수 있음을 시사합니다. 즉, 검색 루프를 수행하는 행위 자체가 표면화하는 정보와 별개로 인식론적 작업의 일부를 수행합니다. 이는 AI 연구 에이전트를 평가하고 설계하는 방식에 영향을 미칠 수 있는 새로운 발견입니다.
한계 및 리소스
고정 증거 자료 자체가 LM에 의해 생성되었으므로, 테스트는 각 모델이 추상적인 판단보다는 특정 표준화된 버전의 증거를 얼마나 잘 해석하는지 측정할 수 있습니다. 게시자는 이를 한계로 지적하지만, 모델 간 상이한 행동이 우려를 줄인다고 주장합니다.
전체 보정 점수, 정제 점수, 조건별 분석은 다음에서 확인할 수 있습니다: futuresearch.ai/opus-research-gemini-judgment. 벤치마크 및 리더보드는 evals.futuresearch.ai에 있습니다.
게시자가 아는 한, 이는 최첨단 모델의 성능을 연구 단계와 판단 단계로 분해한 최초의 직접 평가입니다. 다른 도메인에서의 복제를 초대합니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

젠슨 황의 GTC 2026 OpenClaw 주장과 엔비디아 전략 분석
NVIDIA CEO 젠슨 황의 GTC 2026 기조연설에서 주장한 OpenClaw의 성장, 에이전트 보안 위험, 그리고 NVIDIA의 독점 솔루션에 대한 팩트 체크입니다. 출처는 기술적 주장을 검증하면서 NVIDIA의 비즈니스 포지셔닝을 분석합니다.

Deezer, 일일 업로드의 44%가 AI 생성 음악이라고 보고합니다
Deezer가 발표한 바에 따르면, AI가 생성한 트랙이 이제 플랫폼에 업로드되는 모든 신규 음악의 44%를 차지하며, 하루에 거의 75,000개의 AI 트랙이 업로드되고 있습니다. 회사의 탐지 시스템은 이러한 트랙에 태그를 달고, 추천 목록에서 제거하며, 사기성 AI 스트림의 85%를 수익화 대상에서 제외합니다.

클로드 AI, '진정한 사고'에 81분 투자 - 주요 업데이트 시 사용자 신고 급증
한 사용자가 Claude AI가 간단한 작업에 1시간 21분을 소비했다고 보고하며, 주요 업데이트 직후 성능이 일시적으로 향상된다고 추측합니다. 예를 들어, 한 연구 요청에서 한 세션에 5,113개의 출처를 스캔했지만 이후 비슷한 질문에는 100~200개의 출처만 스캔했습니다.

APEX MoE Quants 업데이트: 25개 이상의 새로운 모델과 I-나노 등급 출시
APEX MoE 인식 혼합 정밀도 양자화가 Qwen, Mistral, Gemma 및 하이브리드 SSM 제품군 전반에 걸쳐 30개 이상의 모델로 확장되고, 중간 계층 전문가에서 2.06bpw까지 낮추는 새로운 I-Nano 계층이 추가되었습니다.