SenseNova-U1-8B-MoT: открытая исходная мультимодальная модель с архитектурой NEO-Unify

SenseNova выпустила SenseNova-U1-8B-MoT в последний день апреля, и она получает меньше внимания, чем заслуживает. Это не очередная гибридная модель на адаптерах. Согласно странице на Hugging Face, модель устраняет как визуальный энкодер (VE), так и вариационный автоэнкодер (VAE), рассматривая пиксели и слова как единое целое. Основой является NEO-Unify — архитектура, созданная с нуля для мультимодального ИИ.
Ключевые особенности
- Нативное мультимодальное понимание и генерация в одной модели без адаптеров.
- Нативная перемежающаяся генерация изображений и текста: создает связные последовательности текста и изображений в одном потоке, полезные для руководств, туристических дневников и инфографики.
- Визуализация информации высокой плотности: генерирует макеты для постеров, презентаций, резюме и иллюстраций знаний.
- Передовые показатели среди открытых моделей в задачах понимания, рассуждения и генерации.
- Нативный MoT (Смешение мыслей) для эффективного кросс-модального рассуждения с минимальными конфликтами.
Особенности архитектуры
SenseNova U1 описывается как смена парадигмы от интеграции модальностей (с использованием адаптеров) к истинной унификации. Модель мыслит и действует нативно на языке и визуальной информации. Проект также нацелен на обучение агентов и моделирование мира (действия на основе зрения и языка, моделирование мира).
Навыки агента
SenseNova также выпустила репозиторий навыков для подключения модели к агентам, таким как Hermes. Хотя навыки, вероятно, указывают на хостинговые API, в источнике отмечается, что их можно модифицировать для указания локальных эндпоинтов.
Для кого это
Разработчики, работающие с мультимодальными конвейерами ИИ, особенно те, кому нужна одна модель как для понимания (например, визуальные вопросы и ответы), так и для генерации (например, текст-в-изображение, инфографика) без сборки отдельных энкодеров и декодеров.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Qwen 3 8B превосходит более крупные модели в слепых экспертных оценках сложных задач.
В слепом парном оценивании 10 небольших языковых моделей на 13 сложных задачах передового уровня, Qwen 3 8B победил в 6 оценках и вошёл в тройку лучших в 12 из 13 задач, превзойдя модели с количеством параметров до 4 раз больше. Оценка охватывала отладку распределённых блокировок, конкурентные ошибки Go, оптимизацию SQL, байесовскую медицинскую диагностику, парадокс Симпсона, теорему голосования Эрроу и анализ ошибки выжившего.

Пользователи сообщают, что Sonnet 4.6 превосходит Opus 4.6 в практических задачах программирования.
Разработчик, тестировавший модели Claude AI, обнаружил, что Opus 4.6 создавал излишне сложные решения с проблемами производительности, в то время как Sonnet 4.6 предлагал более тщательные и эффективные исправления с меньшим использованием токенов.

Anthropic отказывается от ключевого обязательства по безопасности в своей Политике ответственного масштабирования
Anthropic удалила центральное обязательство из своей Политики ответственного масштабирования, которое требовало гарантировать адекватные меры безопасности перед обучением систем ИИ, ссылаясь на конкурентное давление и необходимость продолжения разработки.

Claude Code v2.1.136: Жёсткий запрет для автоматического режима, исправления MCP OAuth и 40+ исправлений ошибок
Anthropic выпустила Claude Code v2.1.136 с настройкой hard_deny для правил классификатора в автоматическом режиме, исправлениями исчезновения MCP-сервера после /clear, проблем с параллельным обновлением OAuth-токенов и более чем 40 другими исправлениями.