Исходный код против моделей нового поколения: бенчмарк сцены с автомобилем на холсте в одном файле

Разработчик запустил один и тот же промпт для Canvas в один файл на 12 моделях, чтобы сравнить возможности открытых и передовых моделей в создании реалистичной сцены движения автомобиля с видом сбоку. Задача: один автономный HTML-файл, без библиотек, без внешних ресурсов, с параллаксным фоном, вращающимися колесами, легким движением кузова, кинематографичным освещением и бесшовным зацикливанием. Тестовый инструмент — OpenCodeOrchestra, а результаты доступны на oco-canvas-car-scene-compare.
Протестированные модели
Каждая модель запускалась в изолированном Orchestrator с максимальным доступным уровнем размышлений/усилий. Список включает GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (макс. усилий), Claude Opus 4.6 (макс. усилий), Claude Sonnet 4.6 (высокий уровень усилий), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus и Grok 4.3. Токены в секунду и время генерации не измерялись.
Ключевые выводы
- Некоторые модели внутренне использовали модели-аудиторы; некоторые нет.
- В галерее видны явные победители и неоднозначные результаты.
- MiMo V2.5 Pro была исключена из-за проблем с биллингом в подписке OpenCode Go.
Страница галереи позволяет сравнивать результаты каждой модели бок о бок. Исходный код доступен на GitHub: AidenGeunGeun/oco-canvas-car-scene-compare.
📖 Полный источник: r/LocalLLaMA
👀 Смотрите также

Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.
Пользователь Reddit указывает на отсутствие у Claude временного восприятия как на ограничение для рабочих задач и предлагает опциональную функцию временных меток, которая будет добавлять дату и время к каждому ответу, сохраняя их между сессиями.

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.
Исследователи обнаружили ошибку блокировки ресурса в коде управления гироскопом компьютера Apollo Guidance, которая оставалась незамеченной в течение 57 лет, используя ИИ Claude и язык спецификаций Allium для анализа 130 000 строк ассемблерного кода.

NIST запрашивает общественное мнение по стандартам безопасности для ИИ-агентов
Национальный институт стандартов и технологий опубликовал запрос информации о вопросах безопасности искусственных интеллектуальных агентов, срок подачи комментариев — 9 марта 2026 года. Запрос открыт для общественного обсуждения через Федеральный реестр.

Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano
APEX — MoE-адаптивная смешанная точность квантизации — теперь охватывает более 30 моделей из семейств Qwen, Mistral, Gemma и гибридных SSM, а также новое поколение I-Nano, достигающее 2,06 бит на параметр для экспертов средних слоёв.