Résultats de référence en raisonnement visuel pour 15 modèles d'IA multimodaux

✍️ OpenClawRadar📅 Publié: February 28, 2026🔗 Source

Vue d'ensemble du benchmark

AIMultiple a réalisé un benchmark de raisonnement visuel sur 15 modèles d'IA multimodaux de premier plan en utilisant 200 questions basées sur des éléments visuels. Le benchmark a été divisé en deux catégories distinctes : 100 questions de compréhension des graphiques axées sur l'interprétation des visualisations de données, et 100 questions de logique visuelle couvrant la reconnaissance de motifs et le raisonnement spatial.

Méthodologie

Chaque question a été exécutée 5 fois pour garantir la fiabilité statistique. Le benchmark a spécifiquement testé la capacité des modèles à interpréter les visualisations de données et à résoudre des problèmes de logique visuelle nécessitant la reconnaissance de motifs et le raisonnement spatial.

Résultats

Le classement général montre Gemini-3.1-pro-preview et Gemini-3-pro-preview en tête, suivis par GPT-5.2, Kimi-K2.5 et GPT-5.2-pro. Les résultats révèlent un schéma cohérent pour la plupart des systèmes : les modèles obtiennent de meilleures performances sur les tâches d'interprétation de graphiques basées sur des données que sur les problèmes de logique visuelle, où les performances chutent significativement.

Pour les développeurs travaillant avec des systèmes d'IA multimodaux, ce benchmark fournit des données concrètes sur les forces relatives dans différents types de tâches de raisonnement visuel. L'écart de performance entre l'interprétation des graphiques et la logique visuelle suggère que les modèles actuels ont des capacités plus solides dans le traitement des données visuelles structurées que dans le raisonnement spatial abstrait.

📖 Lire la source complète : r/ClaudeAI

👀 See Also

News

Anthropic dépose un procès pour éviter un blacklist du Pentagone concernant les restrictions sur l'IA

Anthropic a déposé une plainte visant à empêcher le Pentagone de la mettre sur liste noire en raison de restrictions sur l'utilisation de l'IA, selon un rapport de Reuters partagé sur Hacker News.

Mar 9, 2026, 06:45 PM UTC

OpenClawRadar

News

Le bug de mise à jour automatique d'OpenClaw laisse des répertoires prévol orphelins qui saturent /tmp

Le mécanisme de mise à jour automatique d'OpenClaw crée des copies de pré-vol dans /tmp qui persistent lorsque les mises à jour échouent, pouvant remplir l'espace disque et bloquer les mises à jour ultérieures. Un utilisateur a trouvé 9 répertoires orphelins totalisant 6,5 Go sur un VPS de 38 Go.

Apr 3, 2026, 11:45 AM UTC

OpenClawRadar

News

Le filtre de politique de Claude bloque les travaux de bioinformatique impliquant des noms d'agents pathogènes.

Un chercheur en virologie computationnelle signale que le filtre de politique d'utilisation de Claude signale comme problématiques des scripts légitimes de bioinformatique lorsque des pathogènes sont nommés, nécessitant des contournements comme décrire les tâches sans nommer les organismes ou rétrograder vers Sonnet 4. Le problème affecte Claude Code, claude.ai, et les modèles Opus 4.6 et Sonnet 4.6.

Apr 16, 2026, 05:45 AM UTC

OpenClawRadar

News

Mise à jour du statut de Claude : Taux d'erreur élevés pour Opus 4.6 et Sonnet 4.6

Une mise à jour officielle du statut du système Claude signale des taux d'erreur élevés pour les modèles Opus 4.6 et Sonnet 4.6, avec un incident horodaté au 2026-03-31T21:10:28.000Z. La publication automatique invite les utilisateurs à vérifier l'état de la résolution et les rapports de performance communautaires.

Apr 1, 2026, 03:45 PM UTC

OpenClawRadar