Бенчмарк 12 ИИ-моделей: сравнение GPT-5.5, Claude Opus 4.7 и Qwen 3.6

Разработчик запустил один и тот же промпт для Canvas в один файл на 12 моделях, чтобы сравнить возможности открытых и передовых моделей в создании реалистичной сцены движения автомобиля с видом сбоку. Задача: один автономный HTML-файл, без библиотек, без внешних ресурсов, с параллаксным фоном, вращающимися колесами, легким движением кузова, кинематографичным освещением и бесшовным зацикливанием. Тестовый инструмент — OpenCodeOrchestra, а результаты доступны на oco-canvas-car-scene-compare.

Протестированные модели

Каждая модель запускалась в изолированном Orchestrator с максимальным доступным уровнем размышлений/усилий. Список включает GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (макс. усилий), Claude Opus 4.6 (макс. усилий), Claude Sonnet 4.6 (высокий уровень усилий), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus и Grok 4.3. Токены в секунду и время генерации не измерялись.

Ключевые выводы

Некоторые модели внутренне использовали модели-аудиторы; некоторые нет.
В галерее видны явные победители и неоднозначные результаты.
MiMo V2.5 Pro была исключена из-за проблем с биллингом в подписке OpenCode Go.

Страница галереи позволяет сравнивать результаты каждой модели бок о бок. Исходный код доступен на GitHub: AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Полный источник: r/LocalLLaMA

Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле

Протестированные модели

Ключевые выводы

👀 Смотрите также

Исследование ETH Zurich: Избыточный контекст снижает производительность ИИ-агентов для программирования

Пользователь Reddit исследует, почему ИИ пока не может искать пропавшие самолеты вроде MH370 на спутниковых снимках.

Anthropic приобретает Vercept AI для расширения возможностей Клода по работе с компьютером

OpenClaw 2026.3.22-beta.1: Ключевые изменения в рабочем процессе для разработчиков плагинов и автоматизации браузера