Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле

✍️ OpenClawRadar📅 Опубликовано: 17 мая 2026 г.🔗 Source
Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле
Ad

Разработчик запустил один и тот же промпт для Canvas в один файл на 12 моделях, чтобы сравнить возможности открытых и передовых моделей в создании реалистичной сцены движения автомобиля с видом сбоку. Задача: один автономный HTML-файл, без библиотек, без внешних ресурсов, с параллаксным фоном, вращающимися колесами, легким движением кузова, кинематографичным освещением и бесшовным зацикливанием. Тестовый инструмент — OpenCodeOrchestra, а результаты доступны на oco-canvas-car-scene-compare.

Протестированные модели

Каждая модель запускалась в изолированном Orchestrator с максимальным доступным уровнем размышлений/усилий. Список включает GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (макс. усилий), Claude Opus 4.6 (макс. усилий), Claude Sonnet 4.6 (высокий уровень усилий), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus и Grok 4.3. Токены в секунду и время генерации не измерялись.

Ad

Ключевые выводы

  • Некоторые модели внутренне использовали модели-аудиторы; некоторые нет.
  • В галерее видны явные победители и неоднозначные результаты.
  • MiMo V2.5 Pro была исключена из-за проблем с биллингом в подписке OpenCode Go.

Страница галереи позволяет сравнивать результаты каждой модели бок о бок. Исходный код доступен на GitHub: AidenGeunGeun/oco-canvas-car-scene-compare.

📖 Полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.
Новости

Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.

Пользователь Reddit указывает на отсутствие у Claude временного восприятия как на ограничение для рабочих задач и предлагает опциональную функцию временных меток, которая будет добавлять дату и время к каждому ответу, сохраняя их между сессиями.

OpenClawRadar
Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.
Новости

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.

Исследователи обнаружили ошибку блокировки ресурса в коде управления гироскопом компьютера Apollo Guidance, которая оставалась незамеченной в течение 57 лет, используя ИИ Claude и язык спецификаций Allium для анализа 130 000 строк ассемблерного кода.

OpenClawRadar
NIST запрашивает общественное мнение по стандартам безопасности для ИИ-агентов
Новости

NIST запрашивает общественное мнение по стандартам безопасности для ИИ-агентов

Национальный институт стандартов и технологий опубликовал запрос информации о вопросах безопасности искусственных интеллектуальных агентов, срок подачи комментариев — 9 марта 2026 года. Запрос открыт для общественного обсуждения через Федеральный реестр.

OpenClawRadar
Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano
Новости

Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano

APEX — MoE-адаптивная смешанная точность квантизации — теперь охватывает более 30 моделей из семейств Qwen, Mistral, Gemma и гибридных SSM, а также новое поколение I-Nano, достигающее 2,06 бит на параметр для экспертов средних слоёв.

OpenClawRadar