Benchmark-Ergebnisse für visuelles Denken von 15 multimodalen KI-Modellen

✍️ OpenClawRadar📅 Veröffentlicht: 28. Februar 2026🔗 Source

Benchmark-Übersicht

AIMultiple führte einen visuellen Verständnis-Benchmark mit 15 führenden multimodalen KI-Modellen durch, bei dem 200 visuell basierte Fragen verwendet wurden. Der Benchmark war in zwei separate Kategorien unterteilt: 100 Fragen zum Diagrammverständnis, die sich auf die Interpretation von Datenvisualisierungen konzentrierten, und 100 Fragen zur visuellen Logik, die Mustererkennung und räumliches Denken abdeckten.

Methodik

Jede Frage wurde fünfmal ausgeführt, um statistische Zuverlässigkeit zu gewährleisten. Der Benchmark testete speziell die Fähigkeit der Modelle, Datenvisualisierungen zu interpretieren und visuelle Logikprobleme zu lösen, die Mustererkennung und räumliches Denken erfordern.

Ergebnisse

Die Gesamtrangliste zeigt, dass Gemini-3.1-pro-preview und Gemini-3-pro-preview die Führung übernehmen, gefolgt von GPT-5.2, Kimi-K2.5 und GPT-5.2-pro. Die Ergebnisse zeigen ein konsistentes Muster bei den meisten Systemen: Modelle schneiden bei datengetriebenen Diagramminterpretationsaufgaben besser ab als bei visuellen Logikproblemen, wo die Leistung deutlich abfällt.

Für Entwickler, die mit multimodalen KI-Systemen arbeiten, liefert dieser Benchmark konkrete Daten zu den relativen Stärken in verschiedenen Arten von visuellen Verständnisaufgaben. Die Leistungslücke zwischen Diagramminterpretation und visueller Logik deutet darauf hin, dass aktuelle Modelle stärkere Fähigkeiten bei der Verarbeitung strukturierter visueller Daten haben als beim abstrakten räumlichen Denken.

📖 Read the full source: r/ClaudeAI

👀 Siehe auch

Nachrichten

Reddit-Benutzer schlägt Zeitstempelfunktion für Claude vor, um zeitliche Wahrnehmungslücke zu adressieren

Ein Reddit-Nutzer identifiziert Claudes mangelndes Zeitbewusstsein als Einschränkung für Produktivitätsanwendungsfälle und schlägt eine optionale Zeitstempelfunktion vor, die jede Antwort mit Datum und Uhrzeit versehen würde, die über Sitzungen hinweg bestehen bleibt.

17. Apr. 2026, 10:16 UTC

OpenClawRadar

Nachrichten

Claude Agents auf Bedrock erhalten autonome Mikrozahlungen über das x402-Protokoll

Mit AWS AgentCore Payments können Claude-Agenten auf Bedrock Geldbörsen verwalten und während einer Aufgabe USDC-Mikrozahlungen über den x402-HTTP-Standard durchführen – für autonome, kostenpflichtige API-Aufrufe und die Delegation von Teilaufgaben ohne menschliche Genehmigung.

11. Mai 2026, 10:15 UTC

OpenClawRadar

Nachrichten

OpenAIs Trainingskosten werden voraussichtlich jährlich 4-5 Mal höher sein als die von Anthropic.

Laut vertraulichen Finanzberichten, über die das Wall Street Journal berichtete, erwartet OpenAI, in den nächsten fünf Jahren jedes Jahr 4- bis 5-mal mehr für das Training auszugeben als Anthropic. Das Ausmaß der Ausgaben wird als atemberaubend beschrieben.

16. Apr. 2026, 09:42 UTC

OpenClawRadar

🦀

Nachrichten

Opus 4.7 Reasoning Effort Benchmark: Medium schlägt High und Max bei realen Aufgaben

In 29 Aufgaben aus dem GraphQL-go-tools-Repo erreicht Opus 4.7 in Claude Code bei mittlerem Reasoning-Aufwand die Spitzenleistung – höhere Einstellungen verschlechtern die Korrektheit und erhöhen die Kosten, ohne die Patch-Qualität zu verbessern.

13. Mai 2026, 16:16 UTC

OpenClawRadar