15개 멀티모달 AI 모델 시각 추론 벤치마크 결과: Gemini 선두

벤치마크 개요

AIMultiple는 200개의 시각 기반 질문을 사용하여 15개의 주요 멀티모달 AI 모델에 대한 시각적 추론 벤치마크를 수행했습니다. 이 벤치마크는 데이터 시각화 해석에 초점을 맞춘 100개의 차트 이해 질문과 패턴 인식 및 공간 추론을 다루는 100개의 시각적 논리 질문이라는 두 가지 구별되는 트랙으로 나뉘었습니다.

방법론

통계적 신뢰성을 보장하기 위해 각 질문은 5번 실행되었습니다. 이 벤치마크는 특히 데이터 시각화를 해석하는 능력과 패턴 인식 및 공간 추론이 필요한 시각적 논리 문제를 해결하는 능력을 테스트했습니다.

결과

전체 리더보드는 Gemini-3.1-pro-preview와 Gemini-3-pro-preview가 선두를 달리고 있으며, 그 뒤를 GPT-5.2, Kimi-K2.5, GPT-5.2-pro가 따르는 것으로 나타났습니다. 결과는 대부분의 시스템에서 일관된 패턴을 보여줍니다: 모델들은 시각적 논리 문제보다 데이터 기반 차트 해석 작업에서 더 나은 성능을 보이며, 시각적 논리 문제에서는 성능이 크게 떨어집니다.

멀티모달 AI 시스템을 사용하는 개발자들에게 이 벤치마크는 다양한 유형의 시각적 추론 작업에서 상대적 강점에 대한 구체적인 데이터를 제공합니다. 차트 해석과 시각적 논리 사이의 성능 격차는 현재 모델들이 추상적인 공간 추론보다 구조화된 시각적 데이터 처리에 더 강한 능력을 가지고 있음을 시사합니다.

📖 전체 출처 읽기: r/ClaudeAI

15개 멀티모달 AI 모델의 시각 추론 벤치마크 결과

벤치마크 개요

방법론

결과

👀 See Also

VS Code, Copilot 공동 작성자 트레일러를 기본 활성화

Claude AI가 개발자가 잠든 사이 매직 링크 버그에 대한 병합 PR을 열다

액체 AI, 에이전트 루프를 위한 LFM2.5-350M 모델 출시

리처드 도킨스, AI가 의식을 가졌다고 결론내리자 전문가들이 반박하다